【python处理数据系列】-1:截取CSV大文件的python原代码

本文介绍了如何使用Python处理超过内存限制的大CSV文件,通过设置chunksize逐块读取和写入,避免一次性加载整个文件导致内存溢出。作者分享了代码示例,将大文件分割成多个小文件以便于后续分析,适用于内存有限的环境。文章以成都市交通流数据为例,展示了代码的实际应用,并计划后续发布关于交通流数据处理和绘图的教程。
摘要由CSDN通过智能技术生成


问题背景

        目前手上有一个的成都市交通流数据,包含大车、中车、小车的流量及平均速度,时间跨度为1year,卡点大概有9个左右,频率大概是1min/次,文件大小为19G。我的电脑配置为,运行内存为8G,Intel(R) Core(TM) i5-8250U CPU @ 1.60GHz   1.80 GHz。

        因此,直接使用read_csv是无法打开该文件的(会出现内存溢出),因此采用将文件截取为每个1.63G的文件之后再进行处理。使用的是Jupyter Notebook 编辑器,已安装好相应的库,花了一个下午编写代码,下面是详细内容:

#导入对应的库
import os
import pandas as pd
#设置截取文件的行数,这里我设置的是1000万行,对应我的文件大小是1.63G
chunksize=10000000
#读取前1000万行数据,通过for循环实现对原CSV文件不断迭代的过程
data1=pd.read_csv(filename,chunksize=chunksize,header=None,sep=',') #filename换成自己的文件路径和名称
num=0
for chunk in data1:
    num+=len(chunk)
    head,tail=os.path.split(filename') #filename换成自己的文件路径和名称
    data2=pd.read_csv(filename,chunksize=chunksize,header=None,sep=',')#filename换成自己的文件路径和名称
#这里开始创建截取好的文件,并在屏幕中打印提示
    i=0
    for chunk in data2:
        chunk.to_csv('{0}\{1}{2}'.format(head,i,tail),header=True,index=False)
        print('保存第{0}个数据'.format(i))
        i+=1


​​



总结

处理之后的结果是这样:

截取之后的文件打开是这样:

python处理大型文件是有独特优势的,除了上述代码还有很多更简便的代码,但是为了尽快处理好文件,能用的代码就是好代码!近期还会更新,python处理交通流数据及绘图教程,依然是拿来就用系列~

参考链接:python分割大csv文件_wanganan1984的博客-CSDN博客_python拆分csv文件

(PS:我用上述代码也可以运行,但是运行结果一直没有出现,没有找到对应的原因,因此对上述代码进行修改之后使用。)

A: 使用Python进行交通流仿真主要有两种方法: 1.使用现有的交通仿真工具库,如SUMO(Simulation of Urban MObility)和MATSim(Multi-Agent Transport Simulation)等,这些库可以提供可视化交通网络、车辆、行人等元素,可以灵活地调整仿真输入参数和控制仿真状态,支持多种数据导入和导出格式等。 2.自行搭建仿真模型,使用Python语言编写交通仿真程序,其中主要涉及到交通流动、信号控制、路网拓扑等方面的建模和算法设计。 以下示范使用SUMO进行交通仿真: 1.安装SUMO,并使用网络编辑器创建新的道路网络和仿真配置文件; 2.加载车辆和行人流量数据,并设定仿真参数; 3.运行SUMO仿真并可视化仿真结果; 4.分析交通仿真结果,提取有用的信息,改进仿真模型。 Python代码示例: ```python import traci import traci.constants as tc import sumolib # 创建SUMO仿真环境 sumoBinary = "sumo-gui" sumoCmd = [sumoBinary, "-c", "osm.sumocfg"] traci.start(sumoCmd) # 获取路网和仿真元素信息 net = sumolib.net.readNet('osm.net.xml') veh_route = traci.vehicle.getRoute("vehicle_0") # 构造仿真数据 for i in range(1000): traci.simulationStep() # 仿真结果可视化 traci.gui.trackVehicle("View #0", "vehicle_0") traci.gui.setZoom("View #0", 10000) traci.gui.setOffset("View #0", 200, 100) # 结果分析和性能评估 vehicle_ids = traci.vehicle.getIDList() for v_id in vehicle_ids: speed = traci.vehicle.getSpeed(v_id) distance = traci.vehicle.getDistance(v_id) waiting_time = traci.vehicle.getAccumulatedWaitingTime(v_id) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值