Pytorch单机多卡训练

最新推荐文章于 2024-08-08 18:13:10 发布

love1005lin

最新推荐文章于 2024-08-08 18:13:10 发布

阅读量1k

点赞数

分类专栏： Python使用机器学习分布式文章标签： pytorch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/love1005lin/article/details/116151990

版权

本文介绍了Pytorch中单机多卡训练的两种方法：DataParallel和DistributedDataParallel。DataParallel适用于单机，而DistributedDataParallel支持单机多卡和分布式训练。DistributedDataParallel通过allreduce减少通信开销，确保模型参数同步。文章还详细阐述了DataParallel的工作原理，并给出了DistributedDataParallel的基本使用流程。

摘要由CSDN通过智能技术生成

Pytorch单机多卡训练

pytorch中单机多卡可以使用DataParallel和DistributedDataParallel 来实现。

pytorch官网中推荐使用DistributedDataParallel。两者区别是：

DataParallel是单进程多线程控制GPU的实现方式，因此只能在一台机器上使用，而DistributedDataParallel则是多进程控制GPU，除了能实现单机多卡外，也能够实现分布式训练。

DataParallel一般会比DistributedDataParallel慢

DistributedDataParallel支持model parallel

DP有负载不均衡的现象

DataParallel训练的原理

并行训练有模型并行，数据并行和混合并行。数据并行即每个GPU上都有相同的模型参数，将一个batch的数据分给每个GPU，这样就可以设置更大的batchsize。假设有8个GPU，代码会将GPU0当做reducer，它的功能是分发给其他GPU数据和模型参数，参数更新。其他的GPU则是Maper，主要是进行前向传播和反向传播，向reducer传输自己的参数梯度。

我们知道当batchsize为N时，单机单卡时我们计算loss时是将每个样本的loss求和取平均，这也就相当于把每个样本计算的梯度进行求和后再求平均得到最终的梯度，再进行参数更新。

所以我们要清楚的是那些部分能够进行并行计算，前向传播和反向传播显然可以，因为其只依赖自己的样本，而参数更新不行。

DistributedDataParallel

DistributedDataParallel使用allreduce的方式，能够减少通信开销。并且每个GPU保

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。