当我们在处理较大的数据时,首先应该尽量对数据进行拆分后处理,这样可以减少内存的占用,比如pandas中的chunksize参数就可以实现此功能。但是如果实在需要一次性读取较大的数据到内存中进行处理的话,当对这些数据处理之后,应该及时的把内存中不再使用的对象值删除掉,以清出内存,提高运行速度。
要及时的清出内存,我们需要了解一下python的垃圾回收机制。对于一个在内存中的对象,其保存着一个引用计数器,以记录该对象被引用了多少次,当这个计数器记录的引用次数为0时,那么该对象就会被当做垃圾,被回收,即从内存中清除。该计数器的次数的增加,一般就是当该对象被创建、被新的变量引用、作为参数被传入函数中以及作为元素被存入一个容器中(比如列表)时;那么,哪些情况下,该对象的计数器的数值会减少呢?
对应着计数器引用次数增加的情况,当引用的变量名被显示删除时(del语句)、当引用的变量名被赋予新值、当函数执行完毕以及当容器被删除时。这些情况下,计数器的次数会减少。
在编程中,当一个对象不再被使用时,最直接的方法就是显示删除它,即通过del语句。这样可以及时的让对象计数器减少,当减少到0时,其就会及时的被python解释器从内存中清除,从而对于占用内存比较大的对象来说,可以有效的提升程序运行的效率。