利用python进行数据分析（python数据结构介绍--二进制格式）

最新推荐文章于 2024-08-03 08:38:24 发布

Triumph19

最新推荐文章于 2024-08-03 08:38:24 发布

阅读量336

点赞数 1

文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Triumph19/article/details/119455140

版权

使用Python内建的pickle序列化模块进行二进制格式操作是存储数据（也称为序列化）最高效、最方便的方式之一。pandas对象拥有一个to_pickle方法可以将数据以pickle格式写入硬盘：
你可以直接使用内建的pickle读取文件中“pickle化”对象，或更方便地使用pandas.read_pickle做上述操作：
pandas内建支持其他两个二进制格式：HDF5和MessagePack。

使用HDF5格式

HDF5是一个备受好评的文件格式，用于存储大量的科学数组数据。“HDF”代表分层数据格式。每个HDF5文件可以存储多个数据集并支持元数据。与更简单的格式相比，HDF5支持多种压缩模式的即使压缩，使得重复模式的数据可以更高效地存储。HDF5适用于处理不适合内存中存储的超大型数据，可以使你高效读写大型数组的一小块。
尽管可以通过使用PyTables或h5py等库直接访问HDF5文件，但pandas提供了一个高阶的接口，可以简化Series和DataFrame的存储。HDFStore类像字典一样工作并处理低级别细节：

读取Microsoft Excel文件

pandas也支持通过ExcelFile类或pandas.read_excel函数来读取存储在Excel文件中的表格型数据。这些工具内部是使用附加包xlrd和openpyxl来分别读取XLS和XLSX文件的。你可能需要使用pip或conda手动安装这些工具。
使用ExcelFile时，通过xls或xlsx的路径传入，生成一个实例：

出现以下报错，未能解决

在这里插入图片描述

存储在表中的数据可以通过pandas.read_excel读取到DataFrame中：

接下来的操作已经无法继续（从499页开始）

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。