笔记·Pandas几类数据读写方法对比——csv，parquet，feather和pickle

本文链接：https://blog.csdn.net/qq_40153886/article/details/126158343

本文对比了CSV、Parquet、Feather和Pickle在数据读写效率上的表现，特别关注轨迹数据处理场景，推荐Feather因高效而适合Python，Parquet适用于分布式计算，Pickle适合Python环境但注意安全性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Pandas读取文件类型的数据方法有很多，当读取大文件时往往需要一点技巧来提高效率。

简单对比一下csv，parquet，feather和pickle这几类数据的读写效率，正好最近在处理轨迹数据，特别记录在此。

1.csv格式

csv格式可以通过文本形式直接读取，但是读取和存储效率较低。

'''
读取csv文件示例，16828849条数据，1.32GB
'''
pd_csv = pd.read_csv("data.csv") # 最常规的读取方式，也是最慢的
# time 11.286217212677002s
pd_csv_pa = pd.read_csv("data.csv", engine="pyarrow") # 利用pyarrow引擎，可以大幅提高效率
# time 3.797694206237793s
'''
存储csv文件示例
'''
pd_csv.to_csv("data.csv") # 存储csv效率很低
# time 55.74313497543335s

2.parquet格式

parquet被广泛用作表格数据集的主要文件格式，在Hadoop生态中被广泛应用，所以此类格式适用于Java、Scala、Python、R的环境中，兼顾适用范围和效率。

pandas1.4版本之后，使用parquet可以调用pyarrow和fastparquet两个引擎，需要额外安装。

# parrow：
pip install pyarrow
# fastparquet:
pip install fastparquet>=0.8
pip install python-snappy

'''
读取parquet文件示例，16828849条数据，313MB
'''
pd_pq_pa = pd.read_parquet("data.parquet", engine="pyarrow")
# time 2.2554268836975098s
pd_pq_fp = pd.read_parquet("data.parquet", engine="fastparquet")
# time 1.7567646503448486s
'''
存储parquet文件示例
'''
pd_pq.to_parquet("data.parquet") # 当安装过pyarrow之后默认使用pyarrow
# time 5.019140005111694s
pd_pq.to_parquet("data.parquet", engine="pyarrow")
# time 5.126128911972046s
pd_pq.to_parquet("data.parquet", engine="fastparquet") # 这个存储有点问题，用fastparquet存储之后为862MB，而且读取报错，不知道是不是环境问题，暂时不细究，建议不使用
# time 14.370543479919434s

engine参数如下图，当安装过pyarrow之后默认使用pyarrow

3.feather格式

feather是一种可移植的文件格式，用于存储Arrow表或数据帧，适用于Python和R语言，读写效率高。

'''
读取feather文件示例，16828849条数据，980MB
'''
pd_ft = pd.read_feather("data.feather")
# time 1.6818311214447021s
'''
存储feather文件示例
'''
pd_ft.to_feather("data.feather")
# time 2.6491539478302s

4.pickle格式

pickle文件是Python用来序列化和反序列化对象的方法，虽然可以用来存储数据，效率也很高，但是需要注意的是只适用于Python环境，且容易引发安全问题，使用时需要格外注意。

'''
读取pickle文件示例，16828849条数据，803MB
'''
pd_pkl = pd.read_pickle("data.pkl")
# time 1.2140724658966064s
'''
存储pickle文件示例
'''
pd_pkl.to_pickle("data.pkl")
# time 4.325848817825317s

方法对比


Parser	read time	save time	file size
Default csv	11.2s	55.74s	1.32GB
PyArrow csv	3.8s	55.74s	1.32GB
PyArrow parquet	2.25s	5.13s	313MB
Fastparquet	1.76s	14.37s	862MB
Default feather	1.68s	2.65s	980MB
Default pickle	1.21s	4.33s	803MB