pytorch中Dataloader读取数据太慢的问题

最新推荐文章于 2024-10-17 09:32:15 发布

tony365

最新推荐文章于 2024-10-17 09:32:15 发布

阅读量3.1k

点赞数 1

分类专栏： pytorch 文章标签： pytorch 深度学习 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/tywwwww/article/details/131080667

版权

pytorch 专栏收录该内容

22 篇文章 0 订阅

订阅专栏

文章目录

pytorch中Dataloader读取数据太慢的问题

pytorch中Dataloader读取数据太慢的问题

数据读取的速度远远大于GPU训练的速度，导致整个训练流程中有大部分时间都在等待数据发送到GPU，在资源管理器中呈现出CUDA使用率周期性波动，且大部分时间都是在等待数据加载。
cuda使用率可能很低或者为0：

在这里插入图片描述

1. 方法

在dataset中，会将数据从磁盘读入内存中，如果启用了dataloader中的pin_memory，就会让数据常驻内存，同时设置num_workers还能实现多进程读取数据，但即使设置了这些，数据加载速度依然没有质的提升。

2. 方法

dataset中的transform是导致性能慢的一个原因，dataset中有个函数为__getitem__，每获取一个数据就会让这个数据过一次transform。

transform = transforms.Compose([
transforms.RandomHorizontalFlip(),
transforms.ToTensor(),
transforms.Normalize([0.4914, 0.4822, 0.4465], [0.5, 0.5, 0.5])
])

如果把__getitem__中的一些操作移到 __init__中。

这样__getitem__直接取索引即可。

3. 解决方法：提取加载数据

编写datast的__init__函数的时候
1)提前加载所有数据到cpu
2)或者提前加载所有数据直接加载到GPU：这个要求显存够大
3)__get_item__项目尽量少，尽量再1，2步预处理数据中完成。
4)存大图降低存取次数

很好的博客：https://blog.csdn.net/Twilightzsj/article/details/123941780

https://www.cnblogs.com/pprp/p/14199865.html
https://blog.csdn.net/qq_42255269/article/details/127528662

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。