HDF(Hierarchical Data Format)指一种为存储和处理大容量科学数据设计的文件格式及相应库文件。HDF 最早由美国国家超级计算应用中心 NCSA 开发,目前在非盈利组织 HDF 小组维护下继续发展。当前流行的版本是 HDF5。HDF5 拥有一系列的优异特性,使其特别适合进行大量科学数据的存储和操作,如它支持非常多的数据类型,灵活,通用,跨平台,可扩展,高效的 I/O 性能,支持几乎无限量(高达 EB)的单文件存储等。
HDF5文件层次化的存储两类对象:
- dataset:数据集,一个数据集就是一个数组。数据集就是叶子节点,是文件结点。
- group:目录,一个group可以包含若干个key-value,其中key是字符串,value是dataset。
这两类对象都可以设置各种属性,属性用于描述group和dataset的一些特点。一个HDF5文件从一个命名为“/”的group开始,一个HDF5文件只有一个根group。
用 h5py 操作 HDF5 文件,我们可以像使用目录一样使用 group,像使用 numpy 数组一样使用 dataset,像使用字典一样使用属性,非常方便和易用。
打开/创建
class File(name, mode=None, driver=None, libver=None, userblock_size=None, **kwds)</