在pytorch中load超大训练数据

最新推荐文章于 2023-03-08 14:21:42 发布

刚搬完砖

最新推荐文章于 2023-03-08 14:21:42 发布

阅读量2.4k

点赞数

分类专栏：机器学习数据挖掘文章标签： pytorch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011467621/article/details/111496844

版权

本文介绍了在PyTorch中处理大型训练数据集的两种方法：单线程加载和多进程加载，并提供了相关代码示例。通过使用`torch.utils.data.Dataset`，可以实现多进程并行加载数据。当数据过大导致内存溢出时，提出了将数据切分和使用`IterableDataset`的解决方案。

摘要由CSDN通过智能技术生成

在pytorch中load超大训练数据

by joeyqzhou

相关代码地址: https://github.com/joeyqzhou/blog/tree/master/pytorch%E4%B8%ADload%E8%B6%85%E5%A4%A7%E8%AE%AD%E7%BB%83%E6%95%B0%E6%8D%AE

最简单方式:

1 单线程获取数据到内存中

2 train的过程

   for epoch in range(num_epochs):
        for i in range(inst_size): 
        		#截取 batch_x, batch_y
          	#batch_x, batch_y 转换为tensor
            #model.forward()
            #loss.backward()
            #optimizer.step()

这种方式代码简单。缺点load数据过慢，数据全部存储在内存当中。

当训练数据过大的时候load很慢，内存会溢出

多进程load数据

如下是一个多进程load数据的例子

from multiprocessing import Pool

def process_line(line):
    return "FOO: %s" % line

if __name__ == "__main__":
    pool = Pool(4)
    file = "train.txt" #你的输入数据
    ret = []
    with open(file) as source_file:
        # chunk the work into batches of 4 lines at a time
        results = pool.map(process_line, source_file, 4)

最低0.47元/天解锁文章

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

刚搬完砖 CSDN认证博客专家 CSDN认证企业博客

码龄11年

49: 原创

7万+: 周排名

100万+: 总排名

31万+: 访问

: 等级

2468: 积分

112: 粉丝

80: 获赞

31: 评论

196: 收藏

私信

关注

热门文章

分类专栏

机器学习 18篇
数据挖掘 9篇
python 3篇
统计学 2篇
推荐系统 1篇
kaggle 1篇
笔记 2篇
思考 1篇
代码 2篇
自然语言处理 2篇

最新评论

Permutation Test 置换检验(转）
hypergq: 我也有上面同样的疑问，我用两组真实的数据得到了一个真实的差，我再随机打乱他们得到更多的随机差，这些随机的差有什么意义呢？并不能反应我的数据的真实情况啊？即使我的真实差不在随机差的前5%，但他是真实结果得到的啊，有没有人能解释一下
在pytorch中load超大训练数据
aptx4869ldz: 请问博主思路一中内存依然不断上升的原因找到了吗？是为什么呢？我也遇到了同样的问题，求解，谢谢！
Dummy variable (变量dummy化）
沈悠闲: 通俗易懂
Permutation Test 置换检验(转）
萝卜丝皮尔: 一般来说，P值小于0.05会拒绝原假设。至于文章里的均值差异，是文章定义的检验统计量，也可以定义为两组数据的中位数差值作为检验统计量等的。个人乱说的~
Permutation Test 置换检验(转）
萝卜丝皮尔: 校正之后的p值偏大，我猜，这样就可以更充分地拒绝原假设了（如果能够拒绝的话）。因为被调大的P值还小于显著性水平，那么真实数据构造出来的P值更小于显著性水平。个人乱猜的~

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。