问题背景
目前手上有一个的成都市交通流数据,包含大车、中车、小车的流量及平均速度,时间跨度为1year,卡点大概有9个左右,频率大概是1min/次,文件大小为19G。我的电脑配置为,运行内存为8G,Intel(R) Core(TM) i5-8250U CPU @ 1.60GHz 1.80 GHz。
因此,直接使用read_csv是无法打开该文件的(会出现内存溢出),因此采用将文件截取为每个1.63G的文件之后再进行处理。使用的是Jupyter Notebook 编辑器,已安装好相应的库,花了一个下午编写代码,下面是详细内容:
#导入对应的库
import os
import pandas as pd
#设置截取文件的行数,这里我设置的是1000万行,对应我的文件大小是1.63G
chunksize=10000000
#读取前1000万行数据,通过for循环实现对原CSV文件不断迭代的过程
data1=pd.read_csv(filename,chunksize=chunksize,header=None,sep=',') #filename换成自己的文件路径和名称
num=0
for chunk in data1:
num+=len(chunk)
head,tail=os.path.split(filename') #filename换成自己的文件路径和名称
data2=pd.read_csv(filename,chunksize=chunksize,header=None,sep=',')#filename换成自己的文件路径和名称
#这里开始创建截取好的文件,并在屏幕中打印提示
i=0
for chunk in data2:
chunk.to_csv('{0}\{1}{2}'.format(head,i,tail),header=True,index=False)
print('保存第{0}个数据'.format(i))
i+=1
总结
处理之后的结果是这样:
截取之后的文件打开是这样:
python处理大型文件是有独特优势的,除了上述代码还有很多更简便的代码,但是为了尽快处理好文件,能用的代码就是好代码!近期还会更新,python处理交通流数据及绘图教程,依然是拿来就用系列~
参考链接:python分割大csv文件_wanganan1984的博客-CSDN博客_python拆分csv文件
(PS:我用上述代码也可以运行,但是运行结果一直没有出现,没有找到对应的原因,因此对上述代码进行修改之后使用。)