Pytorch：数据并行和模型并行，解决训练过程中内存分配不均衡的问题

最新推荐文章于 2022-10-25 22:29:14 发布

Golden-sun

最新推荐文章于 2022-10-25 22:29:14 发布

阅读量1.7k

点赞数 1

分类专栏： Pytorch训练技巧文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43402775/article/details/114289595

版权

Pytorch训练技巧专栏收录该内容

17 篇文章 3 订阅

订阅专栏

文章目录

数据并行

单机多卡训练，即并行训练。并行训练又分为数据并行 (Data Parallelism) 和模型并行两种。

数据并行指的是，多张 GPU 使用相同的模型副本，但是使用不同的数据批进行训练。而模型并行指的是，多张GPU 分别训练模型的不同部分，使用同一批数据。

数据并行

torch.nn.DataParallel(module, device_ids=None, output_device=None, dim=0)

【参数】

module ： 要进行并行的 module。这里隐含了一点，即网络中的某一层也是可以进行数据并行的，但是一般不会这么使用。
device_ids : CUDA 列表，可以为 torch.device 类型，也可以是编号组成的 int 列表。默认使用全部 GPU
output_device : 某一 GPU 编号或 torch.device 。指定输出的 GPU，默认为第一个，即 device_ids[0]

数据并行的具体原理流程为：

1.将模型加载至主设备上，作为 controller，一般设置为 cuda:0
在每次迭代时，执行如下操作：
2.将 controller 模型复制（broadcast）到每一个指定的 GPU 上
将总输入的数据 batch，进行均分，分别作为各对应副本的输入 (scatter)
3.每个副本独立进行前向传播，并进行反向传播，但只是求取梯度
4.将各副本的梯度汇总（gather）到 controller 设备，并进行求和 (reduced add) During the backwards pass, gradients from each replica are summed into the original module.
5.更具总体度，更新 controller 设备上的参数

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。