根据simhash找出集合中相似文档的算法

google的simhash算法可以用来衡量原始文档的相似程度。如何判断呢?很简单,就是求2个文档的simhash的距离(即二进制数字中不相同的位的个数)。

本文不想阐述simhash如何产生、如何计算距离,而是要解决从大量文档中找出相似的文档的问题(我们认为距离为1或2时,两文档相似,为0即相等不考虑)。最笨的方法当然是两两比较了,但是当集合中文档数量很大时,两两比较将会很不现实。那该怎么办呢?我的同事ruan给出了一个算法(这个算法也许来自某本书,这里暂且不管)。

算法很简单,当距离小于3时,我们认为文档A和文档B相似,所以我们将所有simhash数值按位均分成3段,即:

A=A1  A2  A3,B=B1  B2  B3,。。。,

如果A和B相似,必然存在某一个段是相等的,也就是说A和B相似,要么A1=B1,要么A2=B2,要么A3=B3,否则A和B不相似。

所以我们按段分组,同一组内的数据再做两两比较,大大减少了比较次数,提高了效率。第一个段分组计算完后再按第二个段、第三个段分组做同样操作。

如果距离小于7时,认为是相似的,就将simhash分成7段,计算方法相同。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值