python读写大文件&& GC

博主在处理40GB大规模数据时遇到内存溢出问题,尝试多种读写策略如分批读取、使用yield及文件分块,但效果不理想。最终通过手动调用Python的垃圾回收机制gc.collect(),观察到内存占用有所起伏,确认中间结果导致内存占用过高。此博客探讨了Python在大数据处理中的内存管理策略和GC优化技巧。
摘要由CSDN通过智能技术生成

最近处理一个大小为40G的数据。逻辑比较简单,按行读取,对每行进行处理,处理后写到文件中。

一次性读入,存储中间结果,一次性输出,这种模式直接OOM。试过网上各种操作 ,分批读入,使用yeild等,都不太行。

也有将文件分块处理,但IO太多。

最终决定进行批写入,完成10%后写入一次,并清空存储结构,但依然不太行。内存占用并没有下降。

最终发现python的gc居然可以手动操作,而不像JAVA完全由虚拟机来控制。

import gc

gc.collect()# 立刻进行gc

调用后,能明显看到内存的占用是一个起起伏伏的过程,gc后几乎回到了起点,确实是中间结果太大了。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值