【python处理数据系列】-1：截取CSV大文件的python原代码

最新推荐文章于 2024-06-10 17:15:00 发布

阿尔法狒

最新推荐文章于 2024-06-10 17:15:00 发布

阅读量1.3k

点赞数 1

分类专栏： python处理数据系列文章标签： python

本文链接：https://blog.csdn.net/weixin_43488304/article/details/119006381

版权

python处理数据系列专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文介绍了如何使用Python处理超过内存限制的大CSV文件，通过设置chunksize逐块读取和写入，避免一次性加载整个文件导致内存溢出。作者分享了代码示例，将大文件分割成多个小文件以便于后续分析，适用于内存有限的环境。文章以成都市交通流数据为例，展示了代码的实际应用，并计划后续发布关于交通流数据处理和绘图的教程。

摘要由CSDN通过智能技术生成

问题背景

目前手上有一个的成都市交通流数据，包含大车、中车、小车的流量及平均速度，时间跨度为1year，卡点大概有9个左右，频率大概是1min/次，文件大小为19G。我的电脑配置为，运行内存为8G，Intel(R) Core(TM) i5-8250U CPU @ 1.60GHz 1.80 GHz。

因此，直接使用read_csv是无法打开该文件的（会出现内存溢出），因此采用将文件截取为每个1.63G的文件之后再进行处理。使用的是Jupyter Notebook 编辑器，已安装好相应的库，花了一个下午编写代码，下面是详细内容：

#导入对应的库
import os
import pandas as pd
#设置截取文件的行数，这里我设置的是1000万行，对应我的文件大小是1.63G
chunksize=10000000
#读取前1000万行数据，通过for循环实现对原CSV文件不断迭代的过程
data1=pd.read_csv(filename,chunksize=chunksize,header=None,sep=',') #filename换成自己的文件路径和名称
num=0
for chunk in data1:
    num+=len(chunk)
    head,tail=os.path.split(filename') #filename换成自己的文件路径和名称
    data2=pd.read_csv(filename,chunksize=chunksize,header=None,sep=',')#filename换成自己的文件路径和名称
#这里开始创建截取好的文件，并在屏幕中打印提示
    i=0
    for chunk in data2:
        chunk.to_csv('{0}\{1}{2}'.format(head,i,tail),header=True,index=False)
        print('保存第{0}个数据'.format(i))
        i+=1