python可以处理特别大的数据文件吗_Python 3.7：对大型数据文件进行性能调优比较...

weixin_39716971

于 2020-11-26 06:52:33 发布

阅读量175

点赞数

文章标签： python可以处理特别大的数据文件吗

不确定是否已经太晚了，但它来了。

我看到你正在内存中加载2个数组，包含完整的文件。如果你说它们各自大约3 GB，那就是尝试在RAM中填充6 GB并且可能进入交换。

此外，即使您成功加载文件，您也在尝试~L1xL2字符串比较（L1和L2是行数）。

我已经在1.2 GB（330万行）中运行以下代码，并在几秒钟内完成。它使用字符串哈希，并且只在RAM中加载一组L1 integer32。

诀窍是在这里完成的，在将hashstring函数应用于文件中的每一行之后创建一个set（）（除了标题，你似乎要添加到输出中）。file1 = set(map(hashstring, f1))

请注意我将文件与自身进行比较（f2加载与f1相同的文件）。如果有帮助，请告诉我。from zlib import adler32

def hashstring(s):

return adler32(s.encode('utf-8'))

with open('haproxy.log.1', 'r') as f1:

heading = f1.readline()

print(f'Heading: {heading}')

print('Hashing')

file1 = set(map(hashstring, f1))

print(f'Hashed: {len(file1)}')

with open('updates.log', 'w') as outFile:

count = 0

outFile.write(heading)

with open ('haproxy.log.1', 'r') as f2:

for line in f2:

if hashstring(line) not in file1:

outFile.write(line)

count += 1

if 0 == count % 10000:

print(f'Checked: {count}')

weixin_39716971

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python可以处理特别大的数据文件吗_Python 3.7：对大型数据文件进行性能调优比较...

不确定是否已经太晚了，但它来了。我看到你正在内存中加载2个数组，包含完整的文件。如果你说它们各自大约3 GB，那就是尝试在RAM中填充6 GB并且可能进入交换。此外，即使您成功加载文件，您也在尝试~L1xL2字符串比较（L1和L2是行数）。我已经在1.2 GB（330万行）中运行以下代码，并在几秒钟内完成。它使用字符串哈希，并且只在RAM中加载一组L1 integer32。诀窍是在这里完成的，在将...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。