多进程IterableDataset流式读取数据的坑：每个进程会读取一遍完整数据

最新推荐文章于 2024-05-28 15:37:44 发布

呆萌的代Ma

最新推荐文章于 2024-05-28 15:37:44 发布

阅读量1.6k

点赞数 2

分类专栏： pytorch/神经网络文章标签： pytorch

本文为CSDN博主"呆萌的代Ma"原创文章，转载请注明博客链接：https://blog.csdn.net/weixin_35757704/

本文链接：https://blog.csdn.net/weixin_35757704/article/details/119747856

版权

pytorch/神经网络专栏收录该内容

60 篇文章 28 订阅

订阅专栏

本文介绍了如何构建PyTorch的DataLoader以实现动态流式读取数据，避免内存溢出。重点在于num_workers参数的设置，当其设为6时，每次epoch会遍历数据集6次。这种机制适用于大规模数据集的训练，确保多进程并行加载数据。

摘要由CSDN通过智能技术生成

构建流式读取DataLoader的方法可以参考：pytorch构造可迭代的DataLoader，动态流式读取数据源，不担心内存炸裂（pytorch Data学习三）

使用如下方法构造DataLoader，如果num_workers设置为N，就会在每个for data in data_source循环内一共遍历N * dataset数据集的全部数据次。

from step_1_parama_test import MyIterableTrainDataset
import torch.utils.data as Data

if __name__ == '__main__':
    data_source = Data.DataLoader(
        dataset=dataset,  # 封装进Data.TensorDataset()类的数据，可以为任意维度
        batch_size=30,  # 每块的大小
        num_workers=6,  # 多进程（multiprocess）来读数据
        drop_last=True
    )
    for data in data_source:  # do not need the labels
        pass
        # 等等其他操作.....

所以：

如果IterableDataset被封装在Data.DataLoader中，且num_workers=6，每执行1次epochs，其实是迭代了6次全部数据集…

呆萌的代Ma

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
2
评论
多进程IterableDataset流式读取数据的坑：每个进程会读取一遍完整数据

构建流式读取DataLoader的方法可以参考：pytorch构造可迭代的DataLoader，动态流式读取数据源，不担心内存炸裂（pytorch Data学习三）使用如下方法构造DataLoader，如果num_workers设置为N，就会在每个for data in data_source循环内一共遍历N * dataset数据集的全部数据次。from step_1_parama_test import MyIterableTrainDatasetimport torch.utils.data a
复制链接

扫一扫