PyTorch 分布式训练 --- 数据加载之DistributedSampler

cv_lhp

已于 2023-02-12 17:26:15 修改

阅读量4.5k

点赞数 4

分类专栏：其他文章标签： pytorch 深度学习分布式训练 DDP

于 2023-02-12 17:05:26 首次发布

本文链接：https://blog.csdn.net/flyingluohaipeng/article/details/128996516

版权

其他专栏收录该内容

20 篇文章

订阅专栏

在PyTorch的分布式数据并行(DDP)训练中，DistributedSampler确保测试数据集加载顺序固定，而训练数据集应设置shuffle为True。为了避免与sampler冲突，DataLoader中的shuffle应设为False。非DDP情况下，训练数据集需保持shuffle为True，测试数据集为False。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 一句话总结：

DDP中DistributedSampler保证测试数据集加载固定顺序，且在各个程序中都是一样时（因为shuffle=True时使用了随机种子，不保证在各个程序中测试数据集加载顺序都是一样），最好在DistributedSampler中保证参数shuflle=False，训练集需要保证shuffle=True（DistributedSampler中默认shuffle参数是True）。
DDP中在DataLoader中需要保证测试数据集和训练数据集都是shuffle=False(参数shuflle默认是False)，因为有了sampler进行数据采样，如果shuffle=True会与sampler进行采样冲突，出现报错（DataLoader中默认shuflle参数是False）。如果不是DDP，则需要保证训练数据集的dataloader中shuffle参数是True，测试数据集的dataloader中shuffle参数是False。