Pytorch之torch.nn.parallel.DistributedDataParallel

最新推荐文章于 2024-08-27 23:11:28 发布

Guan19

最新推荐文章于 2024-08-27 23:11:28 发布

阅读量2.1k

点赞数

分类专栏：并行训练文章标签： pytorch

本文链接：https://blog.csdn.net/baidu_35120637/article/details/110816619

版权

PyTorch的DistributedDataParallel模块实现了分布式数据并行，它在批处理维度上分割输入并在指定设备上并行化模块。每个节点的梯度在反向传播时被平均。使用DistributedDataParallel时，应确保每个进程独占一个GPU，并正确配置process_group。注意参数不会广播，而是对梯度进行全减少操作。此外，使用DistributedDataParallel时要考虑到多节点训练时梯度的缩放问题和其他同步点的警告。

摘要由CSDN通过智能技术生成

开始之前：https://pytorch.org/tutorials/beginner/dist_overview.html

CLASS torch.nn.parallel.DistributedDataParallel(module, device_ids=None, output_device=None, dim=0, broadcast_buffers=True, process_group=None, bucket_cap_mb=25, find_unused_parameters=False, check_reduction=False, gradient_as_bucket_view=False)