为什么要使用多GPU并行训练，单卡和多卡训练，bs和lr的关系

愚昧之山绝望之谷开悟之坡

已于 2023-02-10 16:59:55 修改

阅读量1.8k

点赞数 1

分类专栏：术语笔记 NLP实战项目文章标签：人工智能深度学习

于 2023-02-10 16:46:52 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_15821487/article/details/128973331

版权

笔记同时被 3 个专栏收录

693 篇文章 16 订阅

订阅专栏

478 篇文章 7 订阅

订阅专栏

NLP实战项目

202 篇文章 14 订阅

订阅专栏

文章介绍了使用多GPU进行并行训练的两个主要原因是模型过大和加速计算。模型并行是将大型模型拆分在不同GPU上，而数据并行则是在所有GPU上复制模型并增加批量大小。学习率应与批量大小成正比，遵循线性缩放原则。文章还提及了分布式训练中的注意事项。

摘要由CSDN通过智能技术生成

参考

https://jishuin.proginn.com/p/763bfbd63d50

理解

为什么要使用多GPU并行训练
简单来说，有两种原因：第一种是模型在一块GPU上放不下，两块或多块GPU上就能运行完整的模型（如早期的AlexNet）。第二种是多块GPU并行计算可以达到加速训练的效果。想要成为“炼丹大师“，多GPU并行训练是不可或缺的技能。

常见的多GPU训练方法：
1.模型并行方式：如果模型特别大，GPU显存不够，无法将一个显存放在GPU上，需要把网络的不同模块放在不同GPU上，这样可以训练比较大的网络。（下图左半部分）

2.数据并行方式：将整个模型放在一块GPU里，再复制到每一块GPU上，同时进行正向传播和反向误差传播。相当于加大了batch_size。（下图右半部分）
在这里插入图片描述

单卡和多大训练，bs和lr的关系

众所周知，learning rate的设置应和batch_size的设置成正比，即所谓的线性缩放原则（linear scaling rule）。但是为什么会有这样的关系呢？这里就Accurate Large Minibatch SGD: Training ImageNet in 1 Hour这篇论文来深入探讨一下其中的原理，以及深度学习模型在分布式训练中需要注意的事情。

愚昧之山绝望之谷开悟之坡

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。