最近处理一个大小为40G的数据。逻辑比较简单,按行读取,对每行进行处理,处理后写到文件中。
一次性读入,存储中间结果,一次性输出,这种模式直接OOM。试过网上各种操作 ,分批读入,使用yeild等,都不太行。
也有将文件分块处理,但IO太多。
最终决定进行批写入,完成10%后写入一次,并清空存储结构,但依然不太行。内存占用并没有下降。
最终发现python的gc居然可以手动操作,而不像JAVA完全由虚拟机来控制。
import gc
gc.collect()# 立刻进行gc
调用后,能明显看到内存的占用是一个起起伏伏的过程,gc后几乎回到了起点,确实是中间结果太大了。
博主在处理40GB大规模数据时遇到内存溢出问题,尝试多种读写策略如分批读取、使用yield及文件分块,但效果不理想。最终通过手动调用Python的垃圾回收机制gc.collect(),观察到内存占用有所起伏,确认中间结果导致内存占用过高。此博客探讨了Python在大数据处理中的内存管理策略和GC优化技巧。

1272

被折叠的 条评论
为什么被折叠?



