分布式训练

最新推荐文章于 2022-06-06 13:33:36 发布

iddd

最新推荐文章于 2022-06-06 13:33:36 发布

阅读量749

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/AWhiteDongDong/article/details/118395781

版权

深度学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

单GPU训练 vs 多GPU训练

单GPU训练 一般代码比较简单，并且能满足我们的基本需求，通常做法是设定变量CUDA_VISIBLE_DEVICES的值为某一块GPU来Mask我们机器上的GPU设备，虽然有时当我们忘了设定该变量时程序会自动占用所有的GPU资源，但如果没有相应的代码去分配掌控GPU资源的使用的话，程序还是只会利用到第一张卡的计算资源，其他的资源则仅是占用浪费状态。
多GPU训练 则可以从两个方面提升我们模型训练的上限：

超过单卡显存上限的模型大小，
更大的Batch Size和更快训练速度

相应的，目前各大主流框架的多GPU训练一般存在两种模式：

模型并行 ：分布式系统中的不同GPU负责网络模型的不同部分，进而可以构建超过单卡显存容量大小的模型。比如，可以将神经网络的不同层分配到不同的GPU设备，或者将不同的参数变量分配到不同的GPU设备。

数据并行 ：不同的 GPU设备有同一模型的多个副本，将数据分片并分配到每个GPU上，然后将所有GPU的计算结果按照某种方式合并，进而可以增加训练数据的Batch Size。

此外，从主机的数量的角度来讲还存在单机多卡和多机多卡（分布式）的区别：

单机多卡： 只需运行一份代码，由该代码分配该台机器上GPU资源的使用

多机多卡：每台机器上都需要运行一份代码，机器之间需要互相通信传递梯度，并且模型参数的更新也存在同步模式和异步模式的区别

多GPU机器的充分利用

对于多GPU训练，一般我们需要用数据并行的模式比较多，通过增大 Batch Size 并辅以较高的 Learning Rate 可以加快模型的收敛速度。

由于我们模型是通过若干步梯度反向传播来迭代收敛模型的参数，而每一步的梯度由一个Batch内样本数据的损失情况（Loss）得到，因此当 Batch Size 比较大时，可以减少 Batch样本的分布和整体样本的分布偏差太大的风险，进而使得每一步的梯度更新方向更加准确。

比如，单卡训练 InceptionResNet 网络最大Batch Size为100，学习率为0.001。采用4张卡去训练时，可以设置Batch Size为400，学习率为 0.004。在代码中对每一个Batch 400 切分成 4*100，然后给到不同GPU卡上的模型上去训练。

并行处理机制

首先将模型加载到主 GPU 上，然后再将模型复制到各个指定的从 GPU 中，然后将输入数据按 batch 维度进行划分，具体来说就是每个 GPU 分配到的数据 batch 数量是总输入数据的 batch 除以指定 GPU 个数。每个 GPU 将针对各自的输入数据独立进行 forward 计算，最后将各个 GPU 的 loss 进行求和，再用反向传播更新单个 GPU 上的模型参数，再将更新后的模型参数复制到剩余指定的 GPU 中，这样就完成了一次迭代计算。

iddd

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分布式训练

单GPU训练 vs 多GPU训练单GPU训练一般代码比较简单，并且能满足我们的基本需求，通常做法是设定变量CUDA_VISIBLE_DEVICES的值为某一块GPU来Mask我们机器上的GPU设备，虽然有时当我们忘了设定该变量时程序会自动占用所有的GPU资源，但如果没有相应的代码去分配掌控GPU资源的使用的话，程序还是只会利用到第一张卡的计算资源，其他的资源则仅是占用浪费状态。多GPU训练则可以从两个方面提升我们模型训练的上限：超过单卡显存上限的模型大小，更大的Batch Size和更快训练速
复制链接

扫一扫