python 使用pandas 读取较大csv文件的加速技巧

最新推荐文章于 2025-03-23 09:09:37 发布

Cris_Lee卡卡卡

最新推荐文章于 2025-03-23 09:09:37 发布

阅读量1.4w

点赞数 6

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/lrs1353281004/article/details/106302393

版权

python 专栏收录该内容

28 篇文章

订阅专栏

问题背景

基于python将较大的文本文件读取为dataframe时（文本文件可能是csv或者xlsx类型）。直接用pandas对整个文件进行读取的话，会比较耗时。
这里提供一个简单的加速方案：分批读取。

实现方案

需要首先将文件转为可以分批读取的数据类型:csv(’,‘分隔)或者tsv(’\t’分隔)。
然后基于 pandas 的 read_csv函数的 chunksize参数实现分批读取（此参数用于设定每批读入多少行数据）。一般设置为一个稍大的整数即可明显提速。
封装成以下的函数，可以直接调用：
说明：此函数针对csv文件，如果文件不是基于逗号分隔，在read_csv函数中设置对应的sep参数（分隔符）。

def read_single_csv(input_path):
    import pandas as pd
    df_chunk=pd.read_csv(input_path,chunksize=1000)
    res_chunk=[]
    for chunk in df_chunk:
        res_chunk.append(chunk)
    res_df=pd.concat(res_chunk)
    return res_df