点击上方“Datawhale”,选择“星标”公众号
第一时间获取价值内容
Pandas
是数据科学和数据竞赛中常见的库,我们使用Pandas
可以进行快速读取数据、分析数据、构造特征。但Pandas
在使用上有一些技巧和需要注意的地方,如果你没有合适的使用,那么Pandas
可能运行速度非常慢。本文将整理一些Pandas
使用技巧,主要是用来节约内存和提高代码速度。
1 数据读取与存取
在Pandas
中内置了众多的数据读取函数,可以读取众多的数据格式,最常见的就是read_csv
函数从csv文件读取数据了。但read_csv
在读取大文件时并不快,所以建议你使用read_csv
读取一次原始文件,将dataframe
存储为HDF或者feather格式。一般情况下HDF的读取比读取csv文件快几十倍,但HDF文件在大小上会稍微大一些。
建议1: 尽可能的避免读取原始csv,使用hdf、feather或h5py格式文件加快文件读取;