【python处理数据系列】-1:截取CSV大文件的python原代码


问题背景

        目前手上有一个的成都市交通流数据,包含大车、中车、小车的流量及平均速度,时间跨度为1year,卡点大概有9个左右,频率大概是1min/次,文件大小为19G。我的电脑配置为,运行内存为8G,Intel(R) Core(TM) i5-8250U CPU @ 1.60GHz   1.80 GHz。

        因此,直接使用read_csv是无法打开该文件的(会出现内存溢出),因此采用将文件截取为每个1.63G的文件之后再进行处理。使用的是Jupyter Notebook 编辑器,已安装好相应的库,花了一个下午编写代码,下面是详细内容:

#导入对应的库
import os
import pandas as pd
#设置截取文件的行数,这里我设置的是1000万行,对应我的文件大小是1.63G
chunksize=10000000
#读取前1000万行数据,通过for循环实现对原CSV文件不断迭代的过程
data1=pd.read_csv(filename,chunksize=chunksize,header=None,sep=',') #filename换成自己的文件路径和名称
num=0
for chunk in data1:
    num+=len(chunk)
    head,tail=os.path.split(filename') #filename换成自己的文件路径和名称
    data2=pd.read_csv(filename,chunksize=chunksize,header=None,sep=',')#filename换成自己的文件路径和名称
#这里开始创建截取好的文件,并在屏幕中打印提示
    i=0
    for chunk in data2:
        chunk.to_csv('{0}\{1}{2}'.format(head,i,tail),header=True,index=False)
        print('保存第{0}个数据'.format(i))
        i+=1


​​



总结

处理之后的结果是这样:

截取之后的文件打开是这样:

python处理大型文件是有独特优势的,除了上述代码还有很多更简便的代码,但是为了尽快处理好文件,能用的代码就是好代码!近期还会更新,python处理交通流数据及绘图教程,依然是拿来就用系列~

参考链接:python分割大csv文件_wanganan1984的博客-CSDN博客_python拆分csv文件

(PS:我用上述代码也可以运行,但是运行结果一直没有出现,没有找到对应的原因,因此对上述代码进行修改之后使用。)

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值