抽屉原理与Simhash

抽屉原理:把多余N个物体反倒N个抽屉, 至少有一个抽屉里的物体数不少于两件。

simhash:如果两个输入(文档)越相似,其哈希值越相近。具体哈希算法,可以百度一下,也比较简单。


那么抽屉原理和simhash有什么关系呢?

他俩一般组合起来用,通常用于文档判重上。最著名的当然是google用于网页判重上。

定义两个文档相似为两个文档simhash值海明距离(二进制数不同的位数)小与3。

给定上亿的文档,如何计算新来一个文档有没有重复呢?

这时候就要用到抽屉原理了。我们可以将文档sim哈希值分成四段,那么根据抽屉原理,如果两个文档详细,那么至少有一段内容完全相同!

我们可以通过先将文档根据simhash值分4块,再按每块进行聚类(分组)。新来一个文档,将其simhash值也分成4块,再针对每块查找hash值完全相同的分组,就可以知道跟哪些文档相似了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值