0 背景
在我们使用pandas进行数据处理的时候,有时候发现文件在本地明明不大,但是用pandas以DataFrame形式加载内存中的时候会占用非常高的内存,本文即解决这样的问题。
1 原因
如果是计算机相关专业的同学,你应该知道int8,int16,int64的区别。如果你忘记了,那我们可以举一个例子。内存相当于仓库,数字相当于货物,数字需要装到箱子里才能堆到仓库。现在有小,中,大三种箱子,我们一个个数字用小箱子就可以装好,然后堆到仓库去,而现在pandas的处理逻辑是,如果你不告诉用哪个箱子,我都会用最大的箱子去装,这样仓库很快就满了。OK,这就是有时候DataFrame内存占用过高的原因。
其他信息可以通过numpy中的函数来查看范围
import numpy as np
# 查看int16的范围
ii16 = np.iinfo(np.int16)
ii16.min
-32768
# 与iinfo相应,finfo可以查看float类型的范围
fi16 = np.finfo(np.float16)
fin16.min
-3.4028235e+38