HDF5数据格式
HDF5是Hierarchical Data Format(HDF)第5代的简称,起源于高性能计算领域,目前标准由非营利组织The HDF Group[1]组织开发和维护。其优点在于
•(1)原始表示:数据不必转换成文本,不涉及到转换误差;•(2)自我描述:数据类型直接写在文件中,可以被自动识别;•(3)跨语言:支持所有主流语言,有多重查看器
但是其缺点在于并非人类直接可阅读的数据格式,且对ASCII之外的字符支持没有标准,不保证可以准确处理中文。
HDF5由数据集(Dataset)、组(Group)以及元数据(Metadata)组成。数据集用于储存多维数组;组是数据集的容器,并且可以嵌套;元数据则用于描述数据集或者组的特征,例如数据名称,数据类型等。
hdf5r
在R语言中使用hdf5r
包来读写HDF5数据,这里我们简单介绍一下hdf5r的基本操作。想更深入了解HDF5数据格式的读者可以直接到The HDF Group官网阅读相关文档。想了解更多hdf5r包的读者可以自学其官方教程[2]
注意,使用Mac操作系统的读者在安装hdf5r
包的依赖