Tensorflow分布式训练

最新推荐文章于 2024-01-04 05:45:00 发布

Charlotte_DL

最新推荐文章于 2024-01-04 05:45:00 发布

阅读量867

点赞数

分类专栏： Tensorflow 分布式文章标签：深度学习

本文链接：https://blog.csdn.net/Charlotte_android/article/details/109216200

版权

Tensorflow 同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

分布式

1 篇文章 0 订阅

订阅专栏

Tensorflow分布式训练

一、分布式训练模式
- 1、模型并行（In-graph）
- 2、数据并行（Between-graph）
二、异步、同步训练
- 1、异步训练
- 2、同步训练
三、同步更新和异步更新的优缺点
四、分布式机器类型（TODO）

一、分布式训练模式

1、模型并行（In-graph）

所谓模型并行指的是将模型部署到很多设备上（设备可能分布在不同机器上，下同）运行，比如多个机器的GPUs。当神经网络模型很大时，由于显存限制，它是难以完整地跑在单个GPU上，这个时候就需要把模型分割成更小的部分，不同部分跑在不同的设备上，例如将网络不同的层运行在不同的设备上。
由于模型分割开的各个部分之间有相互依赖关系，因此计算效率不高。所以在模型大小不算太大的情况下一般不使用模型并行。
它的坏处是训练数据的分发依然在一个节点上，要把训练数据分发到不同的机器上，严重影响并发训练速度。在大数据训练的情况下，不推荐使用这种模式。

2、数据并行（Between-graph）

数据并行在多个设备上放置相同的模型，各个设备采用不同的训练样本对模型训练。每个Worker拥有模型的完整副本并且进行各自单独的训练。相比较模型并行，数据并行方式能够支持更大的训练规模，提供更好的扩展性，因此数据并行是深度学习最常采用的分布式训练策略。

二、异步、同步训练

1、异步训练

异步训练中，各个设备完成一个mini-batch训练之后，不需要等待其它节点，直接去更新模型的参数。从下图中可以看到，在每一轮迭代时，不同设备会读取参数最新的取值，但因为不同设备读取参数取值的时间不一样，所以得到的值也有可能不一样。根据当前参数的取值和随机获取的一小部分训练数据，不同设备各自运行反向传播的过程并独立地更新参数。可以简单地认为异步模式就是单机模式复制了多份，每一份使用不同的训练数据进行训练。
异步模式训练图
异步训练总体会训练速度会快很多，但是异步训练的一个很严重的问题是梯度失效问题（stale gradients），刚开始所有设备采用相同的参数来训练，但是异步情况下，某个设备完成一步训练后，可能发现模型参数已经被其它设备更新过了，此时这个设备计算出的梯度就过期了。由于梯度失效问题，异步训练可能陷入次优解（sub-optimal training performance）。图4中给出了一个具体的样例来说明异步模式的问题。其中黑色曲线展示了模型的损失函数，黑色小球表示了在t0时刻参数所对应的损失函数的大小。假设两个设备d0和d1在时间t0同时读取了参数的取值，那么设备d0和d1计算出来的梯度都会将小黑球向左移动。假设在时间t1设备d0已经完成了反向传播的计算并更新了参数，修改后的参数处于图4中小灰球的位置。然而这时的设备d1并不知道参数已经被更新了，所以在时间t2时，设备d1会继续将小球向左移动，使得小球的位置达到图4中小白球的地方。从图4中可以看到，当参数被调整到小白球的位置时，将无法达到最优点。
在这里插入图片描述
在tensorflow中异步训练是默认的并行训练模式。

2、同步训练

所谓同步指的是所有的设备都是采用相同的模型参数来训练，等待所有设备的mini-batch训练完成后，收集它们的梯度后执行模型的一次参数更新。在同步模式下，所有的设备同时读取参数的取值，并且当反向传播算法完成之后同步更新参数的取值。单个设备不会单独对参数进行更新，而会等待所有设备都完成反向传播之后再统一更新参数。
在这里插入图片描述
同步模式相当于通过聚合多个设备上的mini-batch形成一个更大的batch来训练模型，相对于异步模式，在同步模型下根据并行的worker数量线性增加学习速率会取得不错的效果。如果使用tensorflow estimator接口来分布式训练模型的话，在同步模式下需要适当减少训练步数（相对于采用异步模式来说），否则需要花费较长的训练时间。

三、同步更新和异步更新的优缺点

in-graph模式和between-graph模式都支持同步和异步更新。

在同步更新的时候，每次梯度更新，要等所有分发出去的数据计算完成后，返回回来结果之后，把梯度累加算了均值之后，再更新参数。这样的好处是loss的下降比较稳定，但是这个的坏处也很明显， 处理的速度取决于最慢的那个分片计算的时间。

在异步更新的时候，所有的计算节点，各自算自己的，更新参数也是自己更新自己计算的结果，这样的优点就是计算速度快，计算资源能得到充分利用，但是缺点是loss的下降不稳定，抖动大。

在数据量小的情况下，各个节点的计算能力比较均衡的情况下，推荐使用同步模式；数据量很大，各个机器的计算性能掺差不齐的情况下，推荐使用异步的方式。

四、分布式机器类型（TODO）

1、单机单卡

2、单机多卡

3、多机多卡

Charlotte_DL

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Tensorflow分布式训练

Tensorflow分布式训练一、分布式训练模式1、模型并行（In-graph）2、数据并行（Between-graph）二、异步、同步训练1、异步训练2、同步训练三、同步更新和异步更新的优缺点四、分布式机器类型（TODO）1、单机单卡2、单机多卡3、多机多卡一、分布式训练模式1、模型并行（In-graph）所谓模型并行指的是将模型部署到很多设备上（设备可能分布在不同机器上，下同）运行，比如多个机器的GPUs。当神经网络模型很大时，由于显存限制，它是难以完整地跑在单个GPU上，这个时候就需要把模型分割
复制链接

扫一扫