pytorch加载训练数据集dataloader操作耗费时间太久，该如何解决？

最新推荐文章于 2024-08-06 15:52:22 发布

dataat

最新推荐文章于 2024-08-06 15:52:22 发布

阅读量9.7k

点赞数 8

分类专栏： ubuntu pytorch python 文章标签：深度学习机器学习 pytorch

本文链接：https://blog.csdn.net/booklijian/article/details/107152462

版权

python 同时被 3 个专栏收录

46 篇文章 1 订阅

订阅专栏

ubuntu

28 篇文章 3 订阅

订阅专栏

pytorch

19 篇文章 0 订阅

订阅专栏

笔者在使用pytorch加载训练数据进行模型训练的时候，发现数据加载需要耗费太多时间，该如何缩短数据加载的时间消耗呢？经过查询相关文档，总结实际操作过程如下：

1、尽量将jpg等格式的文件保存为bmp文件，可以降低解码时间；

2、dataloader函数中增加num_workers参数，该参数表示加载数据的线程数，建议设置为该系统中的CPU核心数，若CPU很强劲，而且内存很大，也可以考虑将该数值设置的更大一些。

train_loader=torch.utils.data.DataLoader(dataset=train_dataset,batch_size=batch_size,shuffle=True)

修改为：

train_loader=torch.utils.data.DataLoader(dataset=train_dataset,batch_size=batch_size,shuffle=True,num_workers=multiprocessing.cpu_count())

虽然使用dataloader达到了iter（Dataset）的读取并行，但是没有实现在GPU运算时异步读取数据，可以考虑使用non_blocking实现。

dataloader = data.Dataloader(dataset, batch_size = batch_size, num_workers = workers)
for epoch in range(epochs):
    for batch_idx, (images, labels) in enumerate(dataloader):
        images = images.to(device)
        labels = labels.to(device)

改为：

dataloader = data.Dataloader(dataset, batch_size = batch_size, num_workers = workers, pin_memory = True)
for epoch in range(epochs):
    for batch_idx, (images, labels) in enumerate(dataloader):
        images = images.to(device, non_blocking=True)
        labels = labels.to(device, non_blocking=True)

需要注意的是：只有pin_memory=True并且num_workers>0时non_blocking才会有效。

-------------------- 正文到此结束------------------------

推荐一个公众号：健哥聊量化，会持续推出股票相关基础知识，以及python实现的一些基本的分析代码。欢迎大家关注，二维码如下：

相关文章列表如下：

dataat

关注

8
点赞
踩
41

收藏

觉得还不错? 一键收藏
2
评论
pytorch加载训练数据集dataloader操作耗费时间太久，该如何解决？

笔者在使用pytorch加载训练数据进行模型训练的时候，发现数据加载需要耗费太多时间，该如何缩短数据加载的时间消耗呢？经过查询相关文档，总结实际操作过程如下：1、尽量将jpg等格式的文件保存为bmp文件，可以降低解码时间；2、dataloader函数中增加num_workers参数，该参数表示加载数据的线程数，建议设置为该系统中的CPU核心数，若CPU很强劲，而且内存很大，也可以考虑将该数值设置的更大一些。train_loader=torch.utils.data.DataLoader(dat
复制链接

扫一扫

专栏目录