MMCV分布式训练的隐藏bug

最新推荐文章于 2023-12-15 17:46:47 发布

KCDKFT

最新推荐文章于 2023-12-15 17:46:47 发布

阅读量698

点赞数

文章标签： pytorch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kuaitoukid/article/details/119808923

版权

在使用mmcv框架（mmdetection或者是mmsegmentation）进行分布式训练的时候，存在一个隐藏bug。正常来说，分布式训练的示意图如下， $Rank_{i}$ 代表了不同的GPU卡， $t_{0},\cdots , t_{3}$ 代表了不同卡的输出，分布式训练时会有一步汇总操作（代码里是dist.all_reduce），将不同卡的 $t_{i}$ 进行平均。

但是，dist.all_reduce操作的前提是 $t_{0},\cdots , t_{3}$ 在每个GPU卡的产生顺序一定要是固定的，比如有 $t_{0},\cdots , t_{3}$ 四个分类任务，代码里指定GPU0卡依次产生 $t_{0},\cdots , t_{3}$ ，GPU1卡依次产生 $t_{3},\cdots,t_{0}$ ，如果只有GPU0与GPU1两个卡做分布式训练，那么实际在做dist.all_reduce操作时，是GPU0卡的 $t_{0}$ 与GPU1卡的 $t_{3}$ 做平均，而不是与GPU1卡的 $t_{0}$ 做平均。因此在用mmcv框架做分布式训练时，一定要保证不同head产生的loss顺序一致，不然会产生不同任务loss做平均的问题。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
MMCV分布式训练的隐藏bug

在实用mmcv框架（mmdetection或者是mmsegmentation）进行分布式训练的时候，存在一个隐藏bug。正常来说，分布式训练的示意图如下，代表了不同的GPU卡，代表了不同task的输出，分布式训练时会有一步汇总操作（代码里是dist.all_reduce），将不同卡的进行平均。但是，dist.all_reduce操作的前提是在每个GPU卡的产生顺序一定要是固定的，比如有四个分类任务，代码里指定GPU0卡依次产生，GPU1卡依次产生，如果只有GPU0与...
复制链接

扫一扫

KCDKFT CSDN认证博客专家 CSDN认证企业博客

码龄13年

55: 原创

18万+: 周排名

158万+: 总排名

51万+: 访问

: 等级

3821: 积分

281: 粉丝

268: 获赞

337: 评论

171: 收藏

私信

关注

热门文章

分类专栏

最新评论

LBP算法的Matlab代码
m0_61636214: 找不到 'LBP' 的完全匹配项(区分大小写)。最接近的匹配项为: lbp(在 D:\matlabwenjian\图像处理\图像处理\LBP\lbp.m 中) 出错 lbptest (line 4) I12=LBP(I11,SP,0,'i'); 这个为啥
DoglegMethod——“狗腿”算法（下）
Beau garçon: 您好，运行之后还是有错误呢可以发一下完整的代码吗
CNN中感受野的计算
轩木冰: padding并不影响感受野，stride只影响下一层featuremap的感受野，size影响的是该层的感受野
LBP算法的Matlab代码
qq_43557439: 博主，你好，请问直方图中分类18种的依据是什么？
Unity3D SetActive二三事
碧落云: 如果用setactive来做ui的切换，怎么添加切换动画呢

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。