最近处理一个大小为40G的数据。逻辑比较简单,按行读取,对每行进行处理,处理后写到文件中。
一次性读入,存储中间结果,一次性输出,这种模式直接OOM。试过网上各种操作 ,分批读入,使用yeild等,都不太行。
也有将文件分块处理,但IO太多。
最终决定进行批写入,完成10%后写入一次,并清空存储结构,但依然不太行。内存占用并没有下降。
最终发现python的gc居然可以手动操作,而不像JAVA完全由虚拟机来控制。
import gc
gc.collect()# 立刻进行gc
调用后,能明显看到内存的占用是一个起起伏伏的过程,gc后几乎回到了起点,确实是中间结果太大了。