对于几百MB的CSV文件,可以直接使用pd.read_csv()进行读取。然而如果csv文件太大,达到几个Gb,这种方法就不可取。
这时应使用chunk,进行分块读取——
如
user= pd.read_csv('data.csv', chunksize= 20000)
count = 0
for df in user:
count += 1
print count
#其他代码
当然,分块读取后需要额外的拼接工作。
2017.11.26 更新:
发现在这种读取方式下,无法对各个chunk进行循环遍历?(user只能遍历一次)
为了解决这个问题,各种改chunksize,试图改变chunk的数量,未果。。
今天才发现,重新读取一下user就行了!!之前真的是2!