Python中的HDF5模块h5py

最新推荐文章于 2025-04-16 21:07:13 发布

洪小帅

最新推荐文章于 2025-04-16 21:07:13 发布

阅读量1.2k

点赞数 17

文章标签： python 开发语言数据库

本文链接：https://blog.csdn.net/2302_76774649/article/details/144612581

版权

Python中的HDF5模块h5py

大家好,我素洪小帅~

HDF5（Hierarchical Data Format version 5）是一种用于存储和管理大规模数据的文件格式。Python中常用的HDF5模块是h5py，它提供了访问和操作HDF5文件的功能。

1.安装 `h5py`

首先，你需要安装 h5py 模块：

pip install h5py

2.基本操作

创建和打开HDF5文件
使用 h5py.File 来创建或打开HDF5文件。

import h5py

# 创建一个新的HDF5文件（如果文件存在，会覆盖）
with h5py.File('data.h5', 'w') as f:
    # 创建一个数据集
    data = [1, 2, 3, 4, 5]
    f.create_dataset('dataset1', data=data)

读取数据集
如果你已经有了一个HDF5文件，可以用以下方式读取数据：

with h5py.File('data.h5', 'r') as f:
    data = f['dataset1'][:]
    print(data)

查看文件内容
可以查看HDF5文件中的所有数据集和组：

with h5py.File('data.h5', 'r') as f:
    print(f.keys())  # 查看顶层组和数据集
    for name in f:
        print(f[name])  # 打印每个数据集或组的信息

数据集的属性
你可以为数据集设置属性，用来存储附加信息：

with h5py.File('data.h5', 'w') as f:
    dset = f.create_dataset('dataset1', data=[1, 2, 3, 4, 5])
    dset.attrs['description'] = '这是一个简单的数据集'

with h5py.File('data.h5', 'r') as f:
    print(f['dataset1'].attrs['description'])

数据类型
你还可以存储更复杂的结构（如Numpy数组、字符串等）：

import numpy as np

with h5py.File('data.h5', 'w') as f:
    data = np.random.random((100, 100))
    f.create_dataset('random_data', data=data)

with h5py.File('data.h5', 'r') as f:
    print(f['random_data'][:])  # 读取整个数据集

压缩数据
h5py支持在存储数据时进行压缩：

with h5py.File('data.h5', 'w') as f:
    data = np.random.random((1000, 1000))
    f.create_dataset('compressed_data', data=data, compression='gzip', compression_opts=4)

with h5py.File('data.h5', 'r') as f:
    print(f['compressed_data'][:])  # 读取压缩数据

在h5py中，compression_opts是一个用于控制数据压缩级别的参数，它与compression参数一起使用。具体来说，compression_opts的含义取决于你选择的压缩方法。

compression 参数

compression参数用于指定要使用的压缩算法，常见的压缩算法有：

'gzip'：基于gzip的压缩算法，适用于一般数据压缩。
'lzf'：较快速的压缩算法，但压缩率较低。
'szip'：适用于科学数据的压缩算法（较少使用）。

compression_opts 参数

compression_opts用于设置压缩算法的选项。其具体含义取决于所选的压缩方法：

对于 gzip 压缩算法：
compression_opts表示压缩级别，取值范围为 0 到 9，其中：

0：表示不压缩（即不进行任何压缩操作）
1 到 9：压缩级别，数字越大表示压缩更强，文件会更小，但压缩和解压速度会变慢。

例如，compression_opts=4 表示采用中等压缩级别。

with h5py.File('data.h5', 'w') as f:
    data = np.random.random((1000, 1000))
    f.create_dataset('compressed_data', data=data, compression='gzip', compression_opts=4)

对于 lzf 压缩算法：
compression_opts通常不被用作参数，因为lzf的压缩算法不支持调节压缩级别。直接设置压缩即可，不需要额外参数。

with h5py.File('data.h5', 'w') as f:
    data = np.random.random((1000, 1000))
    f.create_dataset('compressed_data', data=data, compression='lzf')

对于 szip 压缩算法：
compression_opts用于设置额外的参数，通常是一个整数，具体值和使用场景可以参考HDF5库的文档。在h5py中，szip的使用比较少见，通常需要安装相关的编译库。

层次结构：组与数据集
HDF5文件支持层次结构，可以像文件夹一样组织数据。你可以创建组并在组下存储数据集：

with h5py.File('data.h5', 'w') as f:
    group = f.create_group('group1')
    group.create_dataset('dataset_in_group', data=[1, 2, 3, 4, 5])

with h5py.File('data.h5', 'r') as f:
    print(f['group1/dataset_in_group'][:])  # 读取组下的数据集