python gzip pickle_加载速度更快：Python中的pickle或hdf5

最新推荐文章于 2024-07-27 19:20:47 发布

施瓦辛格玖

最新推荐文章于 2024-07-27 19:20:47 发布

阅读量459

点赞数

文章标签： python gzip pickle

本文链接：https://blog.csdn.net/weixin_42499441/article/details/111944253

版权

对于1.5GB的pandas数据框列表，作者对比了不同压缩格式的加载速度，包括pickle、hdf5和gzip压缩的CSV。结果显示，HDF5（PyTables）在多种压缩设置下通常比pickle快，尤其是使用zlib压缩时。然而，最佳选项可能因数据类型而异，建议根据实际数据进行基准测试。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Given a 1.5 Gb list of pandas dataframes, which format is fastest for loading compressed data:

pickle (via cPickle), hdf5, or something else in Python?

I only care about fastest speed to load the data into memory

I don't care about dumping the data, it's slow but I only do this once.

I don't care about file size on disk

解决方案

I would consider only two storage formats: HDF5 (PyTables) and Feather

Here are results of my read and write comparison for the DF (shape: 4000000 x 6, size in memory 183.1 MB, size of uncompressed CSV - 492 MB).

Comparison for the following storage formats: (CSV, CSV.gzip, Pickle, HDF5 [various compression]):

read_s write_s size_ratio_to_CSV

storage

CSV 17.900 69.00 1.000

CSV.gzip 18.900 186.00 0.047

Pickle 0.173 1.77 0.374

HDF_fixed 0.196 2.03 0.435

HDF_tab 0.230 2.60 0.437

HDF_tab_zlib_c5 0.845 5.44 0.035

HDF_tab_zlib_c9 0.860 5.95 0.035

HDF_tab_bzip2_c5 2.500 36.50 0.011

HDF_tab_bzip2_c9 2.500 36.50 0.011

But it might be different for you, because all my data was of the datetime dtype, so it's always better to make such a comparison with your real data or at least with the similar data...

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

施瓦辛格玖

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

python gzip pickle_Python的pickle模块的学习（十六）

weixin_39637151的博客

12-24

228

C:\Python27\python.exe D:/git/Python/FullStack/share/pickleTest1.py查看piclle所使用的方法: ['APPEND', 'APPENDS', 'BINFLOAT', 'BINGET', 'BININT', 'BININT1', 'BININT2', 'BINPERSID', 'BINPUT', 'BINSTRING', 'BINU...

python存储大量数据_Python 存储大量 NumPy Array 等数据的方案：HDF5

weixin_39864591的博客

12-04

1792

对于序列化保存各种 array / data frame 等类型的数据，一直以来有各种各样的办法。例如我用过的，对于简单的一个 array，NumPy 有提供读写的方法；pandas 也有对应的 data frame 读写；而字符串/字典，可以变成 json 保存等。但是，如果数量多了，例如有 100 个 array，上面的方法就不太方便了。我比较懒，会把这些 array 放到一个 dict 里面...

参与评论您还未登录，请先登录后发表或查看评论

Python 中Pickle库的使用详解

09-20

pickle是python语言的一个标准模块，安装python后已包含pickle库，不需要单独再安装。这篇文章主要介绍了Python 中Pickle库的使用详解,需要的朋友可以参考下

3行代码，Python数据预处理提速6倍

jacke121的专栏

10-03

2791

Python是所有机器学习的首选编程语言。它易于使用，并拥有许多很棒的库，可以轻松地处理数据。但是当我们需要处理大量数据时，事情就变得棘手了...... “大数据”这个词通常指的是数据集，一个数据集里的数据点如果没有数百万个，也有数十万。在这样的规模上，每个小的计算加起来，而且我们需要在编码过程的每个步骤保持效率。在考虑机器学习系统的效率时，经常被忽视的一个关键步骤就是预处理阶段，我们必须...

python gzip pickle_python cPickle的使用 | 学步园

weixin_36488616的博客

03-01

334

我这里举个使用cPickle的例子并使用gzipimport gzipimport cPickle#import numpyimport timenums=[]start = time.time()with open('111.txt') as f:for line in f:#读取TXT中的数据a=line.split()nums+=asss=numpy.asarray(nums,dtype=i...

python gzip pickle_用pickle存储Python的原生对象方法

weixin_42298802的博客

03-01

167

在Python中存储数据到文件中时，简单的做法是调用open函数执行文件写入操作，但是这样做的话，当我们要重新读取文件内容时，就会出现类型不匹配的情况，因为读取的都是字符串的形式，所以还需要进行类型转换，这样不简洁。或者使用eval函数把字符串转换为对象，但是有时它过于强大，它会执行Python的任何表达式，甚至做出威胁系统正常工作的表达式，这样做不安全。如果想存储Python原生对象，但又无法信...

hickle:基于HDF5的python泡菜替代品

05-06

那就是： hickle是一种将python变量转储到HDF5文件中的巧妙方法，该HDF5文件可以用大多数编程语言读取，而不仅仅是Python。 Hickle速度很快，可以透明压缩数据（LZF / GZIP）。 为什么要使用希克勒？虽然hickle被...

Hickle：Python数据持久化新选择，替代pickle与HDF5结合

资源摘要信息:"Hickle是一个基于HDF5格式的Python库，旨在成为pickle的替代品。pickle是Python标准库中的一个序列化工具，它将对象转换为字节流，以便存储和传输。而Hickle则有所不同，它将Python变量序列化并存储到...

Python高维度大型气象矩阵存储策略分享

最新发布

m0_60394632的博客

07-27

1111

在使用python存储高纬度大规模气象矩阵数据的时候，比较了zarr,pickle,hdf5，以及读取为字典和高维度数组在保存大小方面的优劣以及各自的存储读取案例方式

Python数据存储之 h5py详解

01-20

h5py是对HDF5文件格式进行读写的python包，关于h5py更多介绍与安装，参考官方网站关于HDF5，参考官方网站。：一个HDF5文件就是一个由两种基本数据对象（groups and datasets）存放多种科学数据的容器： HDF5 ...

三行Python代码，让数据预处理速度提高2到6倍

dianhuizhan3102的博客

10-06

1411

在 Python 中，我们可以找到原生的并行化运算指令。本文可以教你仅使用 3 行代码，大大加快数据预处理的速度。 Python 是机器学习领域内的首选编程语言，它易于使用，也有很多出色的库来帮助你更快处理数据。但当我们面临大量数据时，一些问题就会显现…… 目前，大数据（Big Data）这个术语通常用于表示包含数十万数据点的数据集。在这样的尺度上，工作...

python gzip pickle_为什么pickle+gzip在重复数据集上的表现优于h5py？

weixin_34183908的博客

12-24

356

答案是用tcas建议的。我猜压缩是在每个块上单独执行的，并且块的默认大小很小，因此数据中没有足够的冗余，压缩无法从中获益。在下面是给出一个想法的代码：import numpy as npimport gzipimport cPickle as pklimport h5pya = np.random.randn(100000, 10)b = np.hstack( [a[cnt:a.shape[0]-...

python 网络爬虫（三）多线程，gzip加速，网页下载

要不，单步调试走起？

09-11

7421

上一篇的 python 网络爬虫（二） BFS不断抓URL并放到文件中其实还不够正常，很少看到不用多线程的爬虫。本篇补充如下功能：【1】维护一个公用队列，开启多线程，对这个队列进行获取URL和处理【2】对页面的下载，放到特定的文件夹中【3】下载请求用gzip形式下载到本地解压，降低网络资源负荷 python每一时刻只能处理一个线程，多线程有的时候因为切换线程而拖慢速度，但是为什

Python对象序列化性能比较：pickle、json、msgpack

qq_27144923的博客

04-14

2512

简单对比三种python常用序列化工具的性能：pickle、json、msgpack。

笔记·Pandas几类数据读写方法对比——csv，parquet，feather和pickle

qq_40153886的博客

08-04

4398

Pandas读取文件类型的数据方法有很多，当读取大文件时往往需要一点技巧来提高效率。简单对比一下csv，parquet，feather和pickle这几类数据的读写效率，正好最近在处理轨迹数据，特别记录在此。

对比不同主流存储格式（csv, feather, jay, h5, parquet, pickle）的读取效率

热门推荐

David's Tweet

06-17

1万+

引言在遇到大数据时，不同数据处理工具包的优劣，是否拥有丰富的数据处理函数；是否读取数据够快；是否需要额外设备（例如GPU）的支持等等。但无论这些工具包处理数据的时间多快，在碰到例如10G以上的数据时，都还是会耗费一些时间的，快的可能几十秒，慢的可能几十分钟，然后再进行一些特征抽取等等，快的话也得几十分钟，而此时，为了节省时间消耗，我们就需要将这些中间结果线存储到磁盘上面，而不同格式的存储，带来的差别是巨大的，比如：存储一个大的文件，存成csv格式需要10G，

pickle 在python 2和python 3中兼容性问题

11-25

1万+

references

Python —— pickle序列化(大量数据提高python读写速度)(pkl文件)

hxxjxw的博客

07-14

5722

当大量数据的时候，保存成pkl序列化文件的格式，能够加快python的读写速度 pickle的功能就是把你上次计算得到的数据保存起来，当你需要使用这些数据时，直接通过load将数据进行恢复，这样的好处有：不需要重新去计算得到数据，节省计算机资源；可以更好的被内存调用，不需要经过数据格式的转换，提高效率；【直接保存为其他格式，如txt、csv的数据读写速度都不如序列化后的数据（字节流）】 pickle可以保存多个对象。实验中，同一数据集下需要保存的内容不止............

python pickle文件大小_Python Pandas to_pickle()压缩文件

weixin_39717865的博客

12-08

2893

本文将通过pandas to_pickle()方法压缩文件，并比较不同格式压缩文件的大小、写入速度、读取速度，对比结果将说明哪种压缩文件最优。学过Python基础的同学肯定知道有一个叫Pickle的模块，用来对数据进行序列化及反序列化。对数据进行反序列化有什么用呢？一个重要的作用就是便于存储。序列化过程将文本信息转变为二进制数据流，同时保存数据类型。比如，数据处理过程中，突然有事要走，你可以直接将...