单机多卡-多GPU并行训练

大个儿橘猫

已于 2023-05-24 10:09:08 修改

阅读量614

点赞数

分类专栏： DL_practice 文章标签：深度学习人工智能机器学习

于 2023-05-23 22:25:17 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/L1uminous/article/details/130836591

版权

DL_practice 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

参考李沐深度学习视频

例如一台机器有4张显卡。

在训练和预测时，可以将一个小批量切分到这4个显卡上来达到加速的目的。

切分方案有：数据并行、模型并行、通道并行（数据+模型并行）

数据并行

比如说在训练和预测时，批量大小设置的为128，那么这个批量被切分成4块，每块的大小为32

每个GPU拿到完整的模型参数后，这4块小批量分别给这4个GPU进行梯度的计算

将梯度计算完后，4个GPU计算的梯度进行加和，然后传给key-value store

然后在key-value store中更新模型的梯度。如图

李沐视频中提到，数据并行会很大的提高模型收敛和性能，为什么？就比如说，在一张单卡GPU上进行训练，我理解的，batch_size=1与batch_size=64是不一样的，当batch_size=1时，每次计算梯度时，因为样本数量很小，所以训练这个w时会更加贴合这个样本，模型收敛的会很快，当然这样也会导致训练很慢。当batch_size=64时，因为样本数量变大了，里面各种各样的数据变多了，也就是增加了数据的多样性，训练时这个w贴合的就是这些样本而不是batch_size=1时的单个样本，训练时，模型的收敛速度变慢，但同时我理解的是模型的泛化能力也增强了。

模型并行

模型并行就是将模型进行切分，这种情况通常适合模型太大，一个GPU放不下，然后切分一下，把一个模型切成块分别放到不同的GPU上（我就是一个学生，我肯定没有用到过这么大的模型）。

就如李沐提到的，一个100层的ResNet，切成4块，每块25层，然后分别放到4个GPU上。

我听完李沐的课理解的是，他的数据是串行的，但整个训练过程在一定程度上可以做到并行。比如，第一块的25层计算完之后，将结果传给第二块，只有第二块有了第一块的结果作为输入，第二块才能进行计算，以此类推，直到第四块，第四块完了后在进行反向传播计算梯度。那为什么训练过程在一定程度上可以做到并行呢，就想视频中弹幕提到的流水线，第一块计算完之后将结果传给第二块，然后第二块进行计算，但这里，第二块进行计算时不代表第一块他就歇了，他可以继续接受数据进行计算，但这里我有一个问题，如果说按流水线，4块卡里都有了数据，那么第四块卡计算完成后进行反向传播更新梯度时，第三块卡还在进行第二批数据的前向传播，此时更新的话，这里有影响吗？会产生什么样的影响？

以上就是我理解的，以及我的疑惑的地方。希望有大佬能够纠正我理解有误的地方，也希望有大佬能够为我解惑。

大个儿橘猫

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
单机多卡-多GPU并行训练

多GPU训练
复制链接

扫一扫

专栏目录

大个儿橘猫 CSDN认证博客专家 CSDN认证企业博客

码龄1年

10: 原创

137万+: 周排名

96万+: 总排名

5607: 访问

: 等级

129: 积分

2: 粉丝

2: 获赞

9: 评论

13: 收藏

私信

关注

热门文章

分类专栏

最新评论

ReID数据集
大个儿橘猫: 你说的是对的，这已经是我半年前写的了，那时候刚开始看ReID，这里的测试集不用看，测试集就是query和gallery
ReID数据集
姚路遥遥: <训练集和测试集的ID是不能够重复的>这句话有误吧，应该是数据不能重复，ID肯定是一致的了。还有就是这个测试集应该叫验证集会比较好。query和gallery是测试集。
制作ReID数据集的步骤
CSDN-Ada助手: 非常恭喜你写了第11篇博客！标题看起来很有趣，我期待着读到你关于制作ReID数据集的详细步骤。你一直坚持创作，这是一种很了不起的品质。接下来，我建议你可以考虑分享一些关于如何评估和选择不同ReID数据集的内容，这样读者能够更好地理解如何在实际应用中选择合适的数据集。再次感谢你的分享，期待你的下一篇博客！
BatchNormliaztion
CSDN-Ada助手: 恭喜您撰写了第13篇博客！标题“BatchNormliaztion”非常吸引人。您在持续创作方面的努力让人佩服。对于下一步的创作建议，我敢说您已经超越了许多人，但也许可以考虑探索关于BatchNormalization的更深入的实践案例或者分享一些在实际应用中遇到的挑战与解决方案。期待您在未来的创作中更上一层楼！
ReID中的硬标签和软标签
CSDN-Ada助手: 恭喜你写了第12篇博客！标题“ReID中的硬标签和软标签”引起了我的兴趣。看来你对ReID领域有着深入的了解。在这篇博客中，你将硬标签和软标签进行了对比，并给出了相应的解释。这种对比分析对于希望深入理解ReID的读者来说非常有价值。继续保持创作的热情和努力，我期待着你未来更多的博客文章。作为下一步的创作建议，我建议你可以进一步探讨硬标签和软标签在ReID任务中的实际应用和效果。你可以结合具体的案例和实验结果，对比和分析它们在不同场景下的优势和劣势。这样的深入研究将使你的博客更加全面和有说服力。再次恭喜你的持续创作，希望你的博客能够继续为读者带来更多的启发和知识。加油！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply12 看奖励名单。

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。