浅析simhash算法
计算文章相似度,用到了simhash算法问题一: 传统的hash只能够判断两篇文章是不是完全一样, (即hash相等) 而不能判断相似度, 问题二:使用余弦相似度判断文章相似度,即:先进行分词,得到一系列特征向量,然后计算特征向量之间的余弦夹角, 这种方法在特征向量很多的时候, 会拥有庞大的计算量simhash就很好的解决的以上两个问题,simhash作为locality sensitive h...
原创
2018-06-07 15:50:23 ·
581 阅读 ·
0 评论