HDF5 文件及 h5py

最新推荐文章于 2024-12-20 15:45:20 发布

自可乐

最新推荐文章于 2024-12-20 15:45:20 发布

阅读量4.3k

点赞数 1

分类专栏： Python 并行计算 Python 并行计算文章标签： Python HDF5 h5py 科学计算编程

本文链接：https://blog.csdn.net/ZuoShifan/article/details/80070972

版权

本文介绍了HDF5文件格式及其在科学计算中的应用，重点讲解了Python库h5py的安装与使用，包括打开/创建文件、创建group、dataset和attribute。h5py允许像使用numpy数组和字典一样操作HDF5文件，便于高效管理大量科学数据。

摘要由CSDN通过智能技术生成

本文从本人简书博客同步过来

在上一篇中我们介绍了 caput 中另一个模块 miarray 提供的建立在 numpy array 基础上的并行分布式数组 MPIArray，其中也提到了 HDF5 文件及其操作，我们将在后面介绍并行分布式的 HDF5 相关操作，在此之前我们先介绍 HDF5 文件的基本内容以及 Python 中操作 HDF5 文件的方法，以为后面的介绍作铺垫，下面我们介绍 HDF5 文件以及操作 HDF5 文件的 Python 工具 h5py。

HDF5 简介

HDF（Hierarchical Data Format）指一种为存储和处理大容量科学数据设计的文件格式及相应库文件。HDF 最早由美国国家超级计算应用中心 NCSA 开发，目前在非盈利组织 HDF 小组维护下继续发展。当前流行的版本是 HDF5。HDF5 拥有一系列的优异特性，使其特别适合进行大量科学数据的存储和操作，如它支持非常多的数据类型，灵活，通用，跨平台，可扩展，高效的 I/O 性能，支持几乎无限量（高达 EB）的单文件存储等，详见其官方介绍：https://support.hdfgroup.org/HDF5/ 。

Python 中有一系列的工具可以操作和使用 HDF5 数据，其中最常用的是 h5py 和 PyTables。我们只介绍 h5py。

h5py

一个 HDF5 文件是存储两类对象的容器，这两类对象分别为：

dataset：类似数组的数据集合；
gropp；类似目录的容器，其中可以包含一个或多个 dataset 及其它的 group。

一个 HDF5 文件从一个命名为 “/” 的 group 开始，所有的 dataset 和其它 group 都包含在此 group 下，当操作 HDF5 文件时，如果没有显式指定 group 的 dataset 都是默认指 “/” 下的 dataset，另外类似相对文件路径的 group 名字都是相对于 “/” 的。

HDF5 文件的 dataset 和 group 都可以拥有描述性的元数据，称作 attribute。

用 h5py 操作 HDF5 文件，我们可以像使用目录一样使用 group，像使用 numpy 数组一样使用 dataset，像使用字典一样使用属性，非常方便和易用。