python多大gb_需要比较python中1.5GB左右的非常大的文件

最新推荐文章于 2023-03-09 15:30:00 发布

Hey'u

最新推荐文章于 2023-03-09 15:30:00 发布

阅读量660

点赞数

文章标签： python多大gb

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_31517893/article/details/112930552

版权

这里有一个似乎有效的解决方案。工作流程如下：

1)从csv中按块读取数据并附加到HDF存储

2) 对存储区的迭代，它创建另一个执行合并器的存储区

本质上，我们从表中获取一个块，并与文件其他部分的一个块进行组合。combiner函数不会减少，而是计算该块中所有元素之间的函数(以天为单位的差异)，消除重复项，并在每次循环后获取最新数据。有点像递归的reduce。在

这应该是O(num_of_chunks**2)内存和计算时间

在你的情况下，chunksize可以说是1m(或更多)processing [0] [datastore.h5]

processing [1] [datastore_0.h5]

count date diff email

4 1 2011-06-24 00:00:00 0 0000.ANU@GMAIL.COM

1 1 2011-06-24 00:00:00 0 00000.POO@GMAIL.COM

0 1 2010-07-26 00:00:00 0 00000000@11111.COM

2 1 2013-01-01 00:00:00 0 0000650000@YAHOO.COM

3 1 2013-01-26 00:00:00 0 00009.GAURAV@GMAIL.COM

5 1 2011-10-29 00:00:00 0 0000MANNU@GMAIL.COM

6 1 2011-11-21 00:00:00 0 0000PRANNOY0000@GMAIL.COM

7 1 2011-06-26 00:00:00 0 0000PRANNOY0000@YAHOO.CO.IN

8 1 2012-10-25 00:00:00 0 0000RAHUL@GMAIL.COM

9 1 2011-05-10 00:00:00 0 0000SS0@GMAIL.COM

12 1 2010-12-09 00:00:00 0 0001HARISH@GMAIL.COM

11 2 2010-12-12 00:00:00 3 0001HARISH@GMAIL.COM

10 3 2010-12-22 00:00:00 13 0001HARISH@GMAIL.COM

14 1 2012-11-28 00:00:00 0 000AYUSH@GMAIL.COM

15 2 2012-11-29 00:00:00 1 000AYUSH@GMAIL.COM

17 3 2012-12-08 00:00:00 10 000AYUSH@GMAIL.COM

18 4 2012-12

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python多大gb_需要比较python中1.5GB左右的非常大的文件

这里有一个似乎有效的解决方案。工作流程如下：1)从csv中按块读取数据并附加到HDF存储2) 对存储区的迭代，它创建另一个执行合并器的存储区本质上，我们从表中获取一个块，并与文件其他部分的一个块进行组合。combiner函数不会减少，而是计算该块中所有元素之间的函数(以天为单位的差异)，消除重复项，并在每次循环后获取最新数据。有点像递归的reduce。在这应该是O(num_of_chunks**2...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。