python查找重复文本字段_python – 在大文本文件中查找重复记录

最新推荐文章于 2023-12-27 13:50:50 发布

飛鳥bot

最新推荐文章于 2023-12-27 13:50:50 发布

阅读量1.3k

点赞数

文章标签： python查找重复文本字段

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_36480303/article/details/112837861

版权

逐行读取文件,因此您不必将其全部加载到内存中.

对于每一行(记录),创建一个sha256哈希(32字节),除非您的标识符更短.

将哈希/标识符存储在numpy.array中.这可能是存储它们最紧凑的方式. 2700万条记录时间32字节/散列是864 MB.这应该适合现在体面的机器的记忆.

为了加快访问速度,您可以使用第一个例如将2个字节的散列作为collections.defaultdict的键,并将其余的散列放入值的列表中.这实际上会创建一个包含65536个桶的哈希表.对于27e6记录,每个桶平均包含大约400个条目的列表.

这意味着比numpy数组更快的搜索,但它会使用更多的内存.

d = collections.defaultdict(list)

with open('bigdata.txt', 'r') as datafile:

for line in datafile:

id = hashlib.sha256(line).digest()

# Or id = line[:n]

k = id[0:2]

v = id[2:]

if v in d[k]:

print "double found:", id

else:

d[k].append(v)

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python查找重复文本字段_python – 在大文本文件中查找重复记录

逐行读取文件,因此您不必将其全部加载到内存中.对于每一行(记录),创建一个sha256哈希(32字节),除非您的标识符更短.将哈希/标识符存储在numpy.array中.这可能是存储它们最紧凑的方式. 2700万条记录时间32字节/散列是864 MB.这应该适合现在体面的机器的记忆.为了加快访问速度,您可以使用第一个例如将2个字节的散列作为collections.defaultdict的键,并将其...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。