pytorch load huge dataset（大数据加载）

最新推荐文章于 2024-04-24 05:01:16 发布

置顶

huangneng0219

最新推荐文章于 2024-04-24 05:01:16 发布

阅读量1.1w

点赞数 11

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011550545/article/details/87842760

版权

问题

最近用pytorch做实验时，遇到加载大量数据的问题。实验数据大小在400Gb，而本身机器的memory只有256Gb，显然无法将数据一次全部load到memory。

解决方法

首先自定义一个MyDataset继承torch.utils.data.Dataset，然后将MyDataset的对象feed in torch.utils.data.DataLoader()即可。MyDataset在__init__中声明一个文件对象，然后在__getitem__中缓慢读取数据，这样就不会一次把所有数据加载到内存中了。训练数据存放在train.txt中，每一行是一条数据记录。

import torch.utils.data as Data
from tqdm import tqdm
class MyDataset(Data.Dataset):
	def __init__(self,filepath):
		number = 0
		with open(filepath,"r") as f:
			# 获得训练数据的总行数
			for _ in tqdm(f,desc="load training dataset"):
				number+=1
		self.number = number
		self.fopen = open(filepath,'r')
	def __len__(self):
		return self.number
	def __getitem__(self,index):
		line = self.fopen.__next__()
		# 自定义transform()对训练数据进行预处理
		data = transform(line)
		return data

train_dataset = MyDataset(filepath = "train.txt&

最低0.47元/天解锁文章

博客等级

码龄12年

12
原创

38
点赞

100
收藏

7
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: MXNet，卷积以及pooling中的输入输出shape计算

下一篇：: ctcdecode安装

最新评论

ctcdecode安装
weixin_47152578: In file included from ctcdecode/src/binding.cpp:7: ctcdecode/src/scorer.h:9:10: fatal error: lm/enumerate_vocab.hh: No such file or directory 9 | #include "lm/enumerate_vocab.hh" | ^~~~~~~~~~~~~~~~~~~~~~~ compilation terminated. error: command '/usr/bin/gcc' failed with exit code 1这个错误是为什么呢
ctcdecode安装
hjing22: 后面解决了吗可以分享一下如何解决的吗
pytorch加载大数据
shguan2017: 解决了我的问题,谢谢
ctcdecode安装
须臾一念: 我已引用并且转载了你的这篇文章，并且在pytorch 1.8上成功了，并且成功实验出，你的方法在pytorch1.4及以下的版本可以直接成功
ctcdecode安装
cat比deeplearning重要: 您好，我在安装ctcdeocde的时候遇到了跟您一样的问题，请问您当时解决了吗，已经被这个报错折磨好久了

大家在看

最新文章

目录

展开全部

收起

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。