python读取大文件内容_python – 从大文件中读取而不使用h5py将整个内容加载到内存中...

最新推荐文章于 2022-09-29 10:39:14 发布

weixin_39878247

最新推荐文章于 2022-09-29 10:39:14 发布

阅读量249

点赞数

文章标签： python读取大文件内容

以下是否从数据集中读取而不将整个事物一次性加载到内存中[整个事物将不适合内存]并获取数据集的大小而不使用python中的h5py加载数据？如果没有,怎么样？

h5 = h5py.File('myfile.h5', 'r')

mydata = h5.get('matirx') # are all data loaded into memory by using h5.get?

part_of_mydata= mydata[1000:11000,:]

size_data = mydata.shape

谢谢.

解决方法:

get(或indexing)获取对文件的数据集的引用,但不加载任何数据.

In [789]: list(f.keys())

Out[789]: ['dset', 'dset1', 'vset']

In [790]: d=f['dset1']

In [791]: d

Out[791]:

In [792]: d.shape # shape of dataset

Out[792]: (2, 3, 10)

In [793]: arr=d[:,:,:5] # indexing the set fetches part of the data

In [794]: arr.shape

Out[794]: (2, 3, 5)

In [795]: type(d)

Out[795]: h5py._hl.dataset.Dataset

In [796]: type(arr)

Out[796]: numpy.ndarray

d数据集是数组,但实际上并不是一个numpy数组.

获取整个数据集：

In [798]: arr = d[:]

In [799]: type(arr)

Out[799]: numpy.ndarray

它必须阅读以获取你的文件的具体方式取决于切片,数据布局,分块以及其他通常不受你控制的事情,并且不应该担心你.

另请注意,在读取一个数据集时,我没有加载其他数据集.同样适用于群组.

标签：python,hdf5,h5py

来源： https://codeday.me/bug/20190828/1753986.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39878247

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python工具方法 10 h5py批量写入文件、读取文件，支持任意维度的数据

a486259的博客

01-09

1万+

1、创建引入库并创建h5文件 import h5py import numpy as np file_name='data.h5' h5f=h5py.File(file_name) 2、批量写入数据的方法（支持任意维度的数据）一直追加数据到h5文件中 def save_h5(h5f,data,target): shape_list=list(data.shape) if...

床头笔记之Python编程实用函数(三)

HuangRam的博客

10-02

632

Python File(文件)open 方法 python2中： open(name[, mode[, buffering]]) 打开文件，返回文件对象file部分中描述的类型的对象。如果文件无法打开， IOError则引发。参数说明: name: 必需，要打开的文件路径（相对或者绝对路径）的文件名。 mode: 可选，文件打开模式，默认为’r’ buffering: 设置缓冲参数常用的...

参与评论您还未登录，请先登录后发表或查看评论

python数据量太大、不能一次读入内存,如何有效地读写太大而无法放入内存的文件？...

weixin_35651329的博客

03-26

1244

我试图计算100000个向量的余弦相似性，每个向量都有200000个维度。在通过阅读其他问题，我知道memmap、PyTables和h5py是我处理此类数据的最佳选择，我目前正在处理两个memmap；一个用于读取向量，另一个用于存储余弦相似性矩阵。在这是我的代码：import numpy as npimport scipy.spatial.distance as distxdim = 200000...

python将数据放入内存_如何使用python将数据快速加载到内存中？

weixin_39754831的博客

01-15

2715

这实际上取决于阅读的哪一部分需要10分钟。在若它实际上是从磁盘读取数据，那个么显然任何更紧凑形式的数据都会更好。在如果它正在处理CSV格式(你可以告诉你这一点，因为你的CPU在一个核心上接近100%，而在另外两个内核上，它将非常低)，那么你需要一个已经预处理过的表单。在如果是交换内存，例如，因为您只有2GB的物理RAM，那么除了分割数据之外，没有任何帮助。在知道你有哪一个很重要。例如，流压缩数据(...

h5文件读取（python）

南

07-22

6310

h5文件的读取-学习记录（Python）释读取代码释释 h5文件类似于字典的数据结构，分别有若干个group，下属有group或者dataset 读取代码 // 查看h5文件中的group结构 import h5py with h5py.File('h5文件.h5',"r") as f: for key in f.keys(): print(f[key], key, f[key].name) // 下一步 d1_group = f["其中一个group名字"] fo

python库h5py读写数据

qq_27390023的博客

09-29

3000

h5py文件是存放两类对象的容器，数据集(dataset)和组(group)，dataset类似数组类的数据集合，和numpy的数组差不多。group是像文件夹一样的容器，它好比python中的字典，有键(key)和值(value)。group中可以存放dataset或者其他的group。“键”就是组成员的名称，“值”就是组成员对象本身(组或者数据集)。

h5py_test.rar_.h5文件 h5py_h5文件读取_hdf_ruleq77_读取H5数据

09-24

要读取已创建的H5文件，同样使用`h5py.File()`打开文件，然后访问相应的组和数据集： ```python with h5py.File('h5py_test.h5', 'r') as h5file: # 访问'data'组 group = h5file['data'] # 读取'sample'数据...

读取.h5文件数据的python程序_keras读取h5文件load_weights、load代码操作

weixin_39733232的博客

12-04

1907

关于保存h5模型、权重网上的示例非常多，也非常简单。主要有以下两个函数：1、keras.models.load_model() 读取网络、权重2、keras.models.load_weights() 仅读取权重load_model代码包含load_weights的代码，区别在于load_weights时需要先有网络、并且load_weights需要将权重数据写入到对应网络层的tensor中。下面...

读取.h5文件数据的python程序_Python：h5py读写数据

weixin_39758956的博客

12-04

2581

示例：#encoding=utf-8import h5pyimport os#要写入的数据a1 = [[11, 12], [13, 17], [14, 15]]b1 = [[145, 191, 113], [144, 167, 129]]a2 = [[21, 22], [23, 27], [24, 25]]b2 = [[245, 291, 213], [244, 267, 229]]file_na...

train_nonpatrick_.h5文件h5py_

09-30

`h5py`是一个Python库，专为高效地读写HDF5（Hierarchical Data Format 5）文件而设计，尤其适用于大数据集的存储和访问。本篇文章将详细解析`train_nonpatrick_.h5`文件以及如何利用`h5py`进行神经网络训练。 HDF5...

h5pyTest_.h5文件h5py_

10-02

通过运行此脚本，我们可以看到如何使用h5py库加载图像数据、处理和压缩，然后将其保存到`.h5`文件中。这个过程可能包括读取图像、预处理（如缩放、归一化）、转换为数组，以及设置合适的压缩选项等步骤。 **总结** ...

Python对二进制文件做内存映射，高效优雅地对内容随机访问

贰拾壹

08-24

1434

读写二进制文件还在使用open函数？各种组合seek()、read()和write()累不累？使用 mmap 模块实现对文件的内存映射，让我们读写二进制文件像操作数组一样高效优雅。先给出一个实用函数，用来演示如何打开一个文件并对它进行内存映射操作。 def memory_map(filename, access=mmap.ACCESS_WRITE): size = os.pa...

h5py 必知--String存储

热门推荐

苦作舟的人呐

04-28

2万+

1. h5py 文件介绍一个h5py文件是 “dataset” 和 “group” 二合一的容器。 1. dataset : 类似数组组织的数据的集合，像 numpy 数组一样工作 2. group : 包含了其它 dataset 和其它 group ，像字典一样工作看下图：通过上图，我们可以知道 h5py 文件就像是文件夹一样，里面很放文件还有文件夹，主文件夹以 ‘/’ ...

h5py的具体用法总结

qq_40660825的博客

08-31

1962

1.创建文件我们可以通过在初始化File对象时设置“w" 来创建文件。其他一些模式a （用于读/写/创建访问）和 r+（用于读/写访问）。 import h5py import numpy as np f = h5py.File("mytestfile.hdf5", "w") print(f) 结果为在此Python文件的同目录下产生了mytestfile.hdf5此文件。（创建文件...

h5py创建/赋值/查看数据集dataset/组group

weixin_38944349的博客

03-22

4214

#h5py是用于存放两类对象的容器 #导入h5py文件 import h5py #创建h5py文件 f = h5py.File("文件名","w") #读取h5py文件 f = h5py.File('D:\\Learning\\WED\\train_catvnoncat.h5','r') #第一类对象存放数据集dataset #创建赋值数据集 #默认赋值0 #方法一创建数据集 #数据集元素类型i表示整型 #reshape按行填充 d1 = f.create_dataset("数据集的名字",( 行.

利用h5py 构建深度学习数据集

Balloontime的博客

05-23

6823

前言对于深度学习而言，往往有数以十万记的数据，跑程序的时候经常会在加载数据集的时候出现Memory error，查了很多资料，感觉python的h5py包处理数据集非常方便，导入数据时，并不会占据内存空间。实例在利用Resnet做迁移学习对图片进行分类的时候，最初直接往内存加载数据，结果报错，内存溢出。后来查了很多方法，终于用h5py解决了。处理数据集的核心代码如下： f...

python – 输入和输出numpy数组到h5py,保存加载的dataset

MrCharles在CSDN

12-02

3770

有一矩阵，其条目都是float类型。如果用扩展名.dat保存它的文件大小是500 MB的量级。使用h5py大大减少了文件大小。所以，如何保存到一个h5py文件？如何读取相同的文件，并把它作为numpy数组。保存 import h5py h5f = h5py.File('aug1202data.h5', 'w') h5f.create_dataset('dataset_train_x', data...

HNU-ES实验一（步进电机）