(一)HDF与h5
HDF(Hierarchical Data Format层次数据格式)是一种设计用于存储和组织大量数据的文件格式,最开始由美国国家超算中心研发, 后来由一个非盈利组织HDF Group支持。
HDF支持多种商业及非商业的软件平台,包括MATLAB、Java、Python、R和Julia等等,现在也提供了Spark。其版本包括了HDF4和现在大量用的HDF5。
h5是HDF5文件格式的后缀。h5文件对于存储大量数据而言拥有极大的优势,当csv格式的数据集太大(GB以上),pd.read_csv读取速度非常慢时,请果断使用h5存储数据!!!,既能装逼,效率又高!
(二)h5文件数据组织方式:像Linux文件系统一样组织数据
h5文件中有两个核心的概念:组“group”和数据集“dataset”。 一个h5文件就是 “dataset” 和 “group” 二合一的容器。
dataset :简单来讲类似数组组织形式的数据集合,像 numpy 数组一样工作,一个dataset即一个numpy.ndarray。
具体的dataset可以是图像、表格,甚至是pdf文件和excel。
group:包含了其