对比不同主流存储格式（csv, feather, jay, h5, parquet, pickle）的读取效率

最新推荐文章于 2025-03-20 21:23:45 发布

David-Chow

最新推荐文章于 2025-03-20 21:23:45 发布

阅读量1.7w

点赞数 12

分类专栏：数据预处理，深度学习与机器学习，特征标准化，PCA和ZCA白化，基于重构的模型深度学习

本文链接：https://blog.csdn.net/qq_23981335/article/details/117994811

版权

深度学习同时被 2 个专栏收录

54 篇文章

订阅专栏

数据预处理，深度学习与机器学习，特征标准化，PCA和ZCA白化，基于重构的模型

3 篇文章

订阅专栏

本文对比了多种流行的大数据存储格式，包括csv、feather、hdf5、jay、parquet和pickle，介绍了它们的特点并提供了存储和读取的代码示例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考：

《大数据存储技巧，快出csv文件10000倍！》

《FAST Reading w/ Pickle, Feather, Parquet, Jay》

一、引言

在遇到大数据时，不同数据处理工具包的优劣，

是否拥有丰富的数据处理函数；
是否读取数据够快；
是否需要额外设备（例如GPU）的支持等等。

但无论这些工具包处理数据的时间多快，在碰到例如10G以上的数据时，都还是会耗费一些时间的，快的可能几十秒，慢的可能几十分钟，然后再进行一些特征抽取等等，快的话也得几十分钟，而此时，为了节省时间消耗，我们就需要将这些中间结果线存储到磁盘上面，而不同格式的存储，带来的差别是巨大的，比如：

存储一个大的文件，存成csv格式需要10G，但是存成其它格式可能就只需要2G；
存成csv文件读取需要20分钟，存成其它格式读取只需要10秒。

存储格式的选择也会节省海量的时间，那么究竟选用何种存储方式呢？本文我们就对比下面几大流行的存储格式。

csv
feather
hdf5
jay
parquet
pickle

二、数据存储格式对比

01 csv

csv格式是使用最多的一个存储格式，但是其存储和读取的速度会略慢。

02 feather

feather是一种可移植的文件格式，用于存储Arrow表或数据帧（来自Python或R等语言），它在内部使用Arrow-IPC格式。Feather是在Arrow项目早期创建的，作为Python（pandas）和R的快速、语言无关的数据帧存储的概念证明。

feather可以显著提高了数据集的读取速度

03 hdf5

hdf5设计用于快速I/O处理和存储，它是一个高性能的数据管理套件，可以用于存储、管理和处理大型复杂数据。

04 jay

Datatable使用.jay（二进制）格式，这使得读取数据集的速度非常快。

05 parquet

在Hadoop生态系统中，parquet被广泛用作表格数据集的主要文件格式，Parquet使Hadoop生态系统中的任何项目都可以使用压缩的、高效的列数据表示的优势。现在parquet与Spark一起广泛使用。这些年来，它变得更容易获得和更有效，也得到了pandas的支持。

06 pickle

pickle模块实现二进制协议，用于序列化和反序列化Python对象结构。Python对象可以以pickle文件的形式存储，pandas可以直接读取pickle文件。注意，

pickle模块不安全。最好只unpickle你信任的数据。

三、存储代码（从csv文件转换成其他格式存储）

01 源数据

You may find the train data in all this formats in this dataset: https://www.kaggle.com/pedrocouto39/jane-street-market-train-data-best-formats

# datatable installation with internet
!pip install datatable==0.11.0 > /dev/null

import numpy as np 
import pandas as pd 
import datatable as dt

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# You can write up to 20GB to the current directory (/kaggle/working/) that gets preserved as output when you create a version using "Save & Run All" 
# You can also write temporary files to /kaggle/temp/, but they won't be saved outside of the current session

02 获取数据后转换成其他格式

The formats that will be created are:

Pickle - great for object serialization and though it has a slower performance when comparing with other formats, it may work for our porpuse.
Feather - is a fast, lightweight, and easy-to-use binary file format for storing data frames.
Parquet - compared to a traditional approach where data is stored in row-oriented approach, parquet is more efficient in terms of storage and performance.
Jay - also a binary format, that means it is fast, lightweight, and easy-to-use binary file format for storing data frames.

train = pd.read_csv("../input/jane-street-market-prediction/train.csv")
# writing dataset as pickle
train.to_pickle("jane_street_train.pkl.gzip")

# writing dataset as feather
train.to_feather("jane_street_train.feather")

# writing dataset as parquet
train.to_parquet("jane_street_train.parquet")

# writing dataset as jay
dt.Frame(train).to_jay("jane_street_train.jay")

# writing dataset as hdf5
train.to_hdf("jane_street_train.h5", "jane_street_train")

四、读取及代码

同时统计的wall time(即墙上时钟)【使用time.time()】及统计cpu时间【使用time.clock()】。【参见《python time包中的time.time()和time.clock()区别和使用》】

01 Pickle

#time
t0=time.time()
t1=time.clock()
train_pickle = pd.read_pickle("./jane_street_train.pkl.gzip")
t2=time.time()
t3=time.clock()

print("cpu time:",t3-t1)
print("wall time:",t2-t0)

train_pickle.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2390491 entries, 0 to 2390490
Columns: 138 entries, date to ts_id
dtypes: float64(135), int64(3)
memory usage: 2.5 GB

02 Feather

#time
t0=time.time()
t1=time.clock()
train_feather = pd.read_feather("./jane_street_train.feather")
t2=time.time()
t3=time.clock()

print("cpu time:",t3-t1)
print("wall time:",t2-t0)

train_feather.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2390491 entries, 0 to 2390490
Columns: 138 entries, date to ts_id
dtypes: float64(135), int64(3)
memory usage: 2.5 GB

03 Parquet

#time
t0=time.time()
t1=time.clock()
train_parquet = pd.read_parquet("./jane_street_train.parquet")
t2=time.time()
t3=time.clock()

print("cpu time:",t3-t1)
print("wall time:",t2-t0)

train_parquet.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2390491 entries, 0 to 2390490
Columns: 138 entries, date to ts_id
dtypes: float64(135), int64(3)
memory usage: 2.5 GB

04 Jay

#time
t0=time.time()
t1=time.clock()
train_jay = dt.fread("./jane_street_train.jay")
t2=time.time()
t3=time.clock()

print("cpu time:",t3-t1)
print("wall time:",t2-t0)