Data Parallel 的那些事儿（梯度计算、同步 BN ......）

最新推荐文章于 2024-12-08 12:00:56 发布

小吴同学真棒

最新推荐文章于 2024-12-08 12:00:56 发布

阅读量2.2k

点赞数 1

分类专栏：学习人工智能 PyTorch 文章标签： pytorch 深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36627158/article/details/123033954

版权

学习同时被 3 个专栏收录

116 篇文章

订阅专栏

73 篇文章

订阅专栏

16 篇文章

订阅专栏

本文介绍了PyTorch中DataParallel的工作原理，以及如何使用它来解决显存不平衡和不足的问题。同时，对比了DataParallel与SyncBatchNorm在批归一化处理上的差异，解释了SyncBN如何实现跨GPU的同步批归一化，确保模型在多GPU环境中的收敛一致性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

0、写在前面

本文是一个学习链接博客。网上已有许多参考文档，故不再重复。我从找到的学习链接中筛选出我认为写得清晰、通俗易懂的部分截取给大家，并加上了我学习过程中的笔记标注。来源已标注，感谢各位大佬博主！

1、Data Parallel 工作原理 & 梯度计算

pytorch多gpu DataParallel 及梯度累加解决显存不平衡和显存不足问题_gaoyelu的博客-CSDN博客

2、Data Parallel 暂时没有 PyTorch 官方的同步，但 DDP 有。

DataParallel下的Batch Normalization_44070509的博客-CSDN博客

3、Data Parallel 的 BN 层前向计算示意图

Pytorch多GPU的计算和Sync BatchNorm - 知乎

4、BN 的前向、反向传播及其计算公式

BN(Batch Normalization)与Multi-GPU BN - AI备忘录

5、SyncBN 的前向、反向传播及其计算公式

BN(Batch Normalization)与Multi-GPU BN - AI备忘录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。