python多大gb_需要比较python中1.5GB左右的非常大的文件

这里有一个似乎有效的解决方案。工作流程如下:

1)从csv中按块读取数据并附加到HDF存储

2) 对存储区的迭代,它创建另一个执行合并器的存储区

本质上,我们从表中获取一个块,并与文件其他部分的一个块进行组合。combiner函数不会减少,而是计算该块中所有元素之间的函数(以天为单位的差异),消除重复项,并在每次循环后获取最新数据。有点像递归的reduce。在

这应该是O(num_of_chunks**2)内存和计算时间

在你的情况下,chunksize可以说是1m(或更多)processing [0] [datastore.h5]

processing [1] [datastore_0.h5]

count date diff email

4 1 2011-06-24 00:00:00 0 0000.ANU@GMAIL.COM

1 1 2011-06-24 00:00:00 0 00000.POO@GMAIL.COM

0 1 2010-07-26 00:00:00 0 00000000@11111.COM

2 1 2013-01-01 00:00:00 0 0000650000@YAHOO.COM

3 1 2013-01-26 00:00:00 0 00009.GAURAV@GMAIL.COM

5 1 2011-10-29 00:00:00 0 0000MANNU@GMAIL.COM

6 1 2011-11-21 00:00:00 0 0000PRANNOY0000@GMAIL.COM

7 1 2011-06-26 00:00:00 0 0000PRANNOY0000@YAHOO.CO.IN

8 1 2012-10-25 00:00:00 0 0000RAHUL@GMAIL.COM

9 1 2011-05-10 00:00:00 0 0000SS0@GMAIL.COM

12 1 2010-12-09 00:00:00 0 0001HARISH@GMAIL.COM

11 2 2010-12-12 00:00:00 3 0001HARISH@GMAIL.COM

10 3 2010-12-22 00:00:00 13 0001HARISH@GMAIL.COM

14 1 2012-11-28 00:00:00 0 000AYUSH@GMAIL.COM

15 2 2012-11-29 00:00:00 1 000AYUSH@GMAIL.COM

17 3 2012-12-08 00:00:00 10 000AYUSH@GMAIL.COM

18 4 2012-12

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值