- 使用Python内建的pickle序列化模块进行二进制格式操作是存储数据(也称为序列化)最高效、最方便的方式之一。pandas对象拥有一个to_pickle方法可以将数据以pickle格式写入硬盘:
- 你可以直接使用内建的pickle读取文件中“pickle化”对象,或更方便地使用pandas.read_pickle做上述操作:
- pandas内建支持其他两个二进制格式:HDF5和MessagePack。
使用HDF5格式
- HDF5是一个备受好评的文件格式,用于存储大量的科学数组数据。“HDF”代表分层数据格式。每个HDF5文件可以存储多个数据集并支持元数据。与更简单的格式相比,HDF5支持多种压缩模式的即使压缩,使得重复模式的数据可以更高效地存储。HDF5适用于处理不适合内存中存储的超大型数据,可以使你高效读写大型数组的一小块。
- 尽管可以通过使用PyTables或h5py等库直接访问HDF5文件,但pandas提供了一个高阶的接口,可以简化Series和DataFrame的存储。HDFStore类像字典一样工作并处理低级别细节:
读取Microsoft Excel文件
- pandas也支持通过ExcelFile类或pandas.read_excel函数来读取存储在Excel文件中的表格型数据。这些工具内部是使用附加包xlrd和openpyxl来分别读取XLS和XLSX文件的。你可能需要使用pip或conda手动安装这些工具。
使用ExcelFile时,通过xls或xlsx的路径传入,生成一个实例:
出现以下报错,未能解决
- 存储在表中的数据可以通过pandas.read_excel读取到DataFrame中: