HDF5——h5文件的概念和部分python读取操作

在论文的复现过程中,涉及到了大文件的读写操作,对于h5py不是很了解。在此做一个简单的笔记,记录下相关的知识和遇到的部分问题方便日后回看,主要参考如下博客,写的十分详细。
参考链接

具体概念

h5是HDF5文件格式的后缀,h5文件对于存储大量数据而言有较大的优势。
h5文件可以看成是dataset和group组成的层次数据结构,类似于Linux的文件系统。其中dataset是类似与数组组织形式的数据集合,内容多种多样:可以说图像,表格,pdf文件和excel;group是包含了其它 dataset(数组) 和 其它 group ,类似于字典,可以包含多个group和dataset。
在这里插入图片描述

问题描述

在代码复现的过程中,涉及到一个大文件的读取,本来只有二十行的文件操作,一直报memory error 的错误。之前对h5py的相关操作不是十分熟悉,没办法在每个dataset后进行续写的操作(虽然文件的打开有r+),现在仍然不会,如果有大佬知道的话,希望可以教我一下。

解决方法

我当时的数据集只需要在h5文件中创建两个dataset,因为我还是不会进行dataset的续写操作,每次报错也只是在第二个dataset时报错,所以我初步想法是在第一个dataset写完后,将其申请的内存空间进行释放,之后再重新申请内存空间进行下一个dataset的写入。

import gc#对申请的内存空间进行释放
del vectors#之前的变量
gc.collect()#确保一定会被删除
#在python中,说是会自动管理内存空间,但在某个占用较大空间的变量被删除时,内存占用并不总会立即被释放(具体原因不太清楚)

为了保险起见,还用了相关的库,进行程序占用内存空间的查询。
部分代码如下:

import psutil#查看程序当前占用的内存大小
import os

info = psutil.virtual_memory()
print u'内存使用:',psutil.Process(os.getpid()).memory_info().rss
print u'总内存:',info.total
print u'内存占比:',info.percent
print u'cpu个数:',psutil.cpu_count()

问题最终解决后的全部代码如下:

#-*- coding: utf-8 -*-
"""Convert raw GloVe word vector text file to h5."""
'''最终成功版:可以成功将txt转化为h5文件'''

import h5py
import numpy as np
import psutil#查看程序当前占用的内存大小
import os
import gc#对申请的内存空间进行释放

print('reading file...')
glove_vectors = [
    line.strip().split()
    for line in open('glove.840B.300d.txt', 'r')
]

print('1...')
info = psutil.virtual_memory()
print u'内存使用:',psutil.Process(os.getpid()).memory_info().rss
print u'总内存:',info.total
print u'内存占比:',info.percent
print u'cpu个数:',psutil.cpu_count()



#vocab = [line[0] for line in glove_vectors[:100]]
print('reading embedding...')
vectors = np.array(
    [[float(val) for val in line[1:]] for line in glove_vectors]
).astype(np.float32)


print('2...')
info = psutil.virtual_memory()
print u'内存使用:',psutil.Process(os.getpid()).memory_info().rss
print u'总内存:',info.total
print u'内存占比:',info.percent
print u'cpu个数:',psutil.cpu_count()


#vocab = '\n'.join(vocab)
print('writting embedding...')
f = h5py.File('glove.840B.300d.h5', 'w')
f.create_dataset(data=vectors, name='embedding')
#f.create_dataset(data=vocab, name='words_flatten')
print('3...')
info = psutil.virtual_memory()
print u'内存使用:',psutil.Process(os.getpid()).memory_info().rss
print u'总内存:',info.total
print u'内存占比:',info.percent
print u'cpu个数:',psutil.cpu_count()


f.close()

print('delete embedding...')
del vectors
gc.collect()
print('4...delete后')
info = psutil.virtual_memory()
print u'内存使用:',psutil.Process(os.getpid()).memory_info().rss
print u'总内存:',info.total
print u'内存占比:',info.percent
print u'cpu个数:',psutil.cpu_count()


print('reading flatten...')
f = h5py.File('glove.840B.300d.h5', 'r+')
vocab = [line[0] for line in glove_vectors]
vocab = '\n'.join(vocab)
print('4...')
info = psutil.virtual_memory()
print u'内存使用:',psutil.Process(os.getpid()).memory_info().rss
print u'总内存:',info.total
print u'内存占比:',info.percent
print u'cpu个数:',psutil.cpu_count()


print('writting vector...')
f.create_dataset(data=vocab, name='words_flatten')
f.close()
print('5...')
info = psutil.virtual_memory()
print u'内存使用:',psutil.Process(os.getpid()).memory_info().rss
print u'总内存:',info.total
print u'内存占比:',info.percent
print u'cpu个数:',psutil.cpu_count()
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
使用C++的HDF5读取Python使用h5py创建的HDF5文件读取C++本身创建的HDF5文件基本相同,只需稍作调整即可。 以下是一个简单的示例,演示如何使用C++的HDF5读取Python使用h5py创建的HDF5文件: ```c++ #include "H5Cpp.h" #include <iostream> using namespace std; using namespace H5; int main() { // 打开HDF5文件 H5File file("example.h5", H5F_ACC_RDONLY); // 读取名为“data”的数据集 DataSet dataset = file.openDataSet("data"); // 获取数据集的数据空间 DataSpace dataspace = dataset.getSpace(); // 获取数据集的数据类型 DataType datatype = dataset.getDataType(); // 获取数据集的维度信息 int rank = dataspace.getSimpleExtentNdims(); hsize_t dims[2]; dataspace.getSimpleExtentDims(dims, NULL); // 创建一个缓冲区来存储数据 int* data = new int[dims[0] * dims[1]]; // 读取数据集的数据到缓冲区中 dataset.read(data, datatype); // 输出数据 for (int i = 0; i < dims[0]; i++) { for (int j = 0; j < dims[1]; j++) { cout << data[i * dims[1] + j] << " "; } cout << endl; } // 释放缓冲区 delete[] data; return 0; } ``` 假设在Python中使用h5py创建了一个名为“example.h5”的HDF5文件,其中包含一个名为“data”的数据集。上述代码将打开这个文件,并读取“data”数据集的数据到一个缓冲区中,然后输出数据。 请注意,您需要安装C++的HDF5库,并在代码中包含适当的头文件和命名空间。此外,您需要根据您的数据集类型更改相应的数据类型,例如,如果您的数据集是浮点类型,您需要使用float类型而不是int类型。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值