并行训练的原理 | Tensor Flow 支持使用多个GPU 或者机器实现深度学习模型的并行训练

最新推荐文章于 2020-12-26 14:44:12 发布

Ftwhale

最新推荐文章于 2020-12-26 14:44:12 发布

阅读量608

点赞数

分类专栏：深度学习文章标签：深度学习 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Ftwhale/article/details/107850636

版权

Tensor Flow 支持使用多个GPU 或者机器实现深度学习模型的并行训练，但在此之前需要了解并行训练的原理以及如何并行化地训练深度学习模型才更加合理。大体上，实现深度学习模型的并行化训练、可以分为两种不同的方式一一数据并行的方式和模型并行的方式，在本节将对这两种方式进行介绍并比较二者间的优劣。首先看一下不使用并行的方式训练深度学习模型的过程，整个过程如下图所示。在每一轮法代训练中，当前参数的取值和 batch 数据传入到模型中，并经过模型的前向传播过程得到计算的结果，随后反向传播算法会根据损失函数计算参数的梯度并更新参数，更新后的参数会在下一轮迭代训练中和其他 batch数据再经过模型的前向传播过程。

在这里插入图片描述

在并行训练深度学习模型时，使用数据并行的方式会在不同设备（ GPU或 CPU）上运行这个法代的过程，而使用模型并行的方式会将整个过程的计算图拆分成多个子图，交由不同设备（ GPU 或 CPU）来运行。

同步模式下的数据并行

同步模式下的数据并行如下图所示。

在这里插入图片描述

从图 14-7 中可以看到，在每一轮迭代开始时，这些设备首先会统一读取当前参数的取值，并获取一个 mini-batch 的数据。然后在不同设备上运行前向传播过程得到模型的预测结果，以及运行反向传播过程得到在各自 mini-batch 上参数的梯度 ΔP。因为训练数据不同，因此即便所有设备使用的参数是一致的&#

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
并行训练的原理 | Tensor Flow 支持使用多个GPU 或者机器实现深度学习模型的并行训练

Tensor Flow 支持使用多个GPU 或者机器实现深度学习模型的并行训练，但在此之前需要了解并行训练的原理以及如何并行化地训练深度学习模型才更加合理。大体上，实现深度学习模型的并行化训练、可以分为两种不同的方式一一数据并行的方式和模型并行的方式，在本节将对这两种方式进行介绍并比较二者间的优劣。首先看一下不使用并行的方式训练深度学习模型的过程，整个过程如下图所示。在每一轮法代训练中，当前参数的取值和 batch 数据传入到模型中，并经过模型的前向传播过程得到计算的结果，随后反向传播算法会根据损失函数
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。