- 博客(1)
- 资源 (3)
- 收藏
- 关注
原创 利用余弦相似度做文本分类
利用余弦相似度做文本分类: 在数学中余弦相似度的公式:cos(a,b)=a*b/(|a|+|b|),而在文本上,我们的余弦相似度通常是这样计算而成: (文本a,b共同出现的词条数目)/(文本a出现的词条数目+文本b出现的词条数目) 处理两个纯文本的相似度可以这样处理,但对于文本分类来说,我们更多使用的是“训练集”与“测试集”的概念,具体我们会抽取训练集的词条,形成语料库,然后统计这些语料库中
2015-08-27 14:16:19 6049
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人