一千万条数据去重_simhash算法：海量千万级的数据去重

weixin_39608478

于 2021-01-30 15:48:10 发布

阅读量387

点赞数

文章标签：一千万条数据去重

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39608478/article/details/113551233

版权

simhash算法：海量千万级的数据去重

simhash算法及原理参考：

python实现：

python库simhash使用

(1) 查看simhash值

>>> fromsimhash import Simhash>>> print ‘%x‘ % Simhash(u‘I am very happy‘.split()).value

9f8fd7efdb1ded7f

Simhash()接收一个token序列，或者叫特征序列。

(2)计算两个simhash值距离

>>> hash1 = Simhash(u‘I am very happy‘.split())>>> hash2 = Simhash(u‘I am very sad‘.split())>>> print hash1.distance(hash2)

(3)建立索引

simhash被用来去重。如果两两分别计算simhash值，数据量较大的情况下肯定hold不住。有专门的数据结构，参考：http://www.cnblogs.com/maybe2030/p/5203186.html#_label4

from simhash importSimhash, SimhashIndex#建立索引

data ={

u‘1‘: u‘How are you I Am fine . blar blar blar blar blar Thanks .‘.lower().split(),

u‘2‘: u‘How are you i am fine .‘.lower().split(),

u‘3‘: u‘This is simhash test .‘.lower().split(),

}

objs= [(id, Simhash(sent)) for id, sent indata.items()]

index= SimhashIndex(objs, k=10) #k是容忍度；k越大，检索出的相似文本就越多#检索

s1 = Simhash(u‘How are you . blar blar blar blar blar Thanks‘.lower().split())printindex.get_near_dups(s1)#增加新索引

index.add(u‘4‘, s1)

weixin_39608478

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
一千万条数据去重_simhash算法：海量千万级的数据去重

simhash算法：海量千万级的数据去重simhash算法及原理参考：python实现：python库simhash使用(1) 查看simhash值>>> fromsimhash import Simhash>>> print ‘%x‘ % Simhash(u‘I am very happy‘.split()).value9f8fd7efdb1ded7fSimh...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。