前言
数据分析常用的数据格式无非就是json,txt,csv,excel 或者是数据库文件,他们各有所长。其中用处最广泛的应属于csv,因为它轻量,占用的空间相比于excel会小很多。它的可读性也不错,相比于txt 更适合数据分析,尤其是基于pandas的数据分析。
今天我们推荐一个日常中,小众但是很实用的文件格式 --Feather,一句话定位它:高速读写压缩二进制文件。
Feather 介绍
Feather 其实是Apache Arrow 项目中包含的一种数据格式,但是由于其优异的性能,该文件格式也被单独打包,放在pip中进行安装。Pandas 也支持对Feather的读写,所以只需安装pandas即可。
官方介绍Feather是一款高速,轻量,易于使用的二进制文件格式,用于保存数据。它在设计时尽可能让API函数简单,而且优化了读写速度。
官方链接:Feather File Format
Pandas保存Feather 格式
秉承Feather的设计原则,Pandas 对于Feather的读写也保持API函数极简。Pandas 中写Feather 只有一个函数:
DataFrame.to_feather(**kwargs)
参数主要的有三个:
- path: 需要保存的Feather文件路径
- compression: 是否压缩,以及如何压缩,支持{'zstd', 'uncompr