simhash和minhash实现理解

最新推荐文章于 2019-06-19 20:46:00 发布

weixin_30532837

最新推荐文章于 2019-06-19 20:46:00 发布

阅读量199

点赞数

文章标签： golang

原文链接：http://www.cnblogs.com/bergus/p/simhash-heminhash-shi-xian-li-jie.html

版权

文本相似度算法

minhash

1. 把文档A分词形成分词向量L
2. 使用K个hash函数，然后每个hash将L里面的分词分别进行hash，然后得到K个被hash过的集合
3. 分别得到K个集合中的最小hash，然后组成一个长度为K的hash集合
4. 最后用Jaccard index求出两篇文档的相似度

simhash

1. 把文档A分词形成分词向量L，L中的每一个元素都包涵一个分词C以及一个分词的权重W
2. 对L中的每一个元素的分词C进行hash，得到C1，然后组成一个新的向量L1
3. 初始化一个长度大于C1长度的向量V，所有元素初始化为0
4. 分别判断L1中的每一个元素C1的第i位，如果C1i是1，那么Vi加上w，否则Vi减去w
5. 最后判断V中的每一项，如果第i项大于0，那么第i项变成1，否则变成0
6. 两篇文档a,b分别得到aV,bV
6. 最后求出aV和bV的海明距离，一般距离不大于3的情况下说明两篇文档是相似的

中文文档simhash值计算
 simhash算法原理及实现
 GoSimhash 是中文 simhash 去重算法库，Golang版本。
simhash算法的原理
 simhash与Google的网页去重

转载于:https://www.cnblogs.com/bergus/p/simhash-heminhash-shi-xian-li-jie.html

weixin_30532837

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
simhash和minhash实现理解

文本相似度算法minhashminhash1. 把文档A分词形成分词向量L2. 使用K个hash函数，然后每个hash将L里面的分词分别进行hash，然后得到K个被hash过的集合3. 分别得到K个集合中的最小hash，然后组成一个长度为K的hash集合4. 最后用Jaccard index求出两篇文档的相似度simhash1. 把文档A分词形成分词向量L，L中的每一个元素都包...
复制链接

扫一扫