Horovod学习笔记——初识horovod

最新推荐文章于 2023-05-10 22:23:50 发布

aaHHKK123

最新推荐文章于 2023-05-10 22:23:50 发布

阅读量1.6k

点赞数 1

分类专栏： Horovod

原文链接：https://zhuanlan.zhihu.com/p/64092047

版权

Horovod 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一、Horovod简介

Horovod 是一套面向 TensorFlow 的分布式训练框架，由 Uber 构建并开源，它的发展吸取了Facebook “Training ImageNet In 1 Hour” 与百度 “Ring Allreduce” 的优点，可为用户实现分布式训练提供帮助。Horovod 能够简化并加速分布式深度学习项目的启动与运行。通过利用消息传递接口（简称 MPI）实现应用环状规约，显著提升 TensorFlow 模型的实用性与性能表现。

二、为什么要用Horovod

随着大家训练机器学习模型越来越多的，项目的数据和计算能力需求正在急剧增加。在大部分情况下，模型是可以在单个或多GPU平台的服务器上运行的，但随着数据集的增大和训练时间的增长，有些时候训练需要一周甚至更长时间。因此，我们不得不寻求分布式训练的方法。

按照并行方式，分布式训练一般分为数据并行和模型并行两种：
（1）模型并行：分布式系统中的不同 GPU 负责网络模型的不同部分。例如，神经网络模型的不同网络层被分配到不同的 GPU，或者同一层内部的不同参数被分配到不同 GPU；
（2）数据并行：不同的 GPU 有同一个模型的多个副本，每个 GPU 分配到不同的数据，然后将所有 GPU 的计算结果按照某种方式合并。
分布式训练的两种并行方式
因为模型并行各个部分存在一定的依赖，规模伸缩性差，在实际训练中用的不多。而数据并行，则各部分独立，规模伸缩性好，实际训练中更为常用，提速效果也更好。
数据并行会涉及到各个 GPU 之间同步模型参数，一般分为同步更新和异步更新。同步更新要等到所有 GPU 的梯度计算完成，再统一计算新权值，然后所有 GPU 同步新值后，才进行下一轮计算。异步更新，每个 GPU 梯度计算完后，无需等待其他 GPU 的梯度计算（有时可以设置需要等待的梯度个数），可立即更新整体权值，然后同步此权值，即可进行下一轮计算。同步更新有等待，异步更新基本没有等待，但异步更新涉及到梯度过时等更复杂问题。

在实际应用中，单机多卡的同步式数据并行是最常用的，在论文中最常见的训练方式是单机八卡。数据再多时，一般就需要多机多卡了。

无论是单机多卡，还是多机多卡，均是分布式训练，在 Horovod 出现之前，一般使用 TensorFlow集群训练方式。可是 TensorFlow 的集群训练，用起来并不轻松。

以分布式TensorFlow为例，在试验了一些方法之后，意识到原有方法需要进行一些调整：
（1）在遵循文档和代码示例之后，大家并不总是清楚哪些功能对应着哪些模型训练代码的分布式计算。标准分布式TensorFlow引入了很多新的概念：工作线程、参数服务器、tf.Server()、tf.ClusterSpec()、**tf.train.SyncReplicasOptimizer()以及tf.train.replicas_device_setter()**等等。它们在某些情况下能起到优化作用，但也让我们难以诊断拖慢训练速度的bug。
（2）有关大规模的计算性能。在进行了一些基准测试之后，可以发现标准的分布式TensorFlow机制无法满足需求。例如，在使用 128个GPU进行训练时，因为低效率损失了一半的计算资源。

应对不断增加的TensorFlow程序复杂性：在测试中可以发现，每个使用分布式TensorFlow的案例都需要指定初始工作线程和参数服务器，传递服务发现信息，如所有工作线程和参数服务器的主机和端口，并使用合适的tf.ClusterSpec()构建tf.Server()，进而调整训练程序。此外，用户必须保证所有的操作都正确地使用 tf.train.device_replica_setter()，并使用towers让代码符合服务器中多GPU的设置。这通常导致陡峭的学习曲线和大量的代码重构，压缩了实际建模的时间。

总结下来，TensorFlow有几个缺点：
1.概念多，学习曲线陡峭
TensorFlow 的集群采用的是 Parameter Server 架构，因此引入了比较多复杂概念。
2.需要修改的代码量大
如果想把单机单卡的模型，移植到多机多卡，涉及的代码量是以天记的，慢的话甚至需要一周。
3.需要多台机子跑不同的脚本
TensorFlow 集群是采用 Parameter Server 架构的，要想跑多机多卡的集群，每个机子都要启动一个 client，即跑一个脚本，来启动训练。
4.PS 和 Worker 的比例不好选取
TensorFlow 集群要将服务器分为 PS 和 Worker 两种 job 类型，PS 设置多少性能最近并没有确定的计算公式。
5.性能损失较大
TensorFlow 的集群性能并不好，当超过一定规模时，性能甚至会掉到理想性能的一半以下。

由于 TensorFlow 集群太不友好，业内也一直在尝试新的集群方案。
2017 年 Facebook 发布了《Accurate, large minibatch SGD: Training ImageNet in 1 hour 》验证了大数据并行的高效性，同年百度发表了《Bringing HPC techniques to deep learning 》，验证了全新的梯度同步和权值更新算法的可行性。受这两篇论文的启发，Uber 开发了 Horovod 集群方案。

三、Horovod涉及到的概念

Horovod 的数据传递是基于 MPI，因此其涉及的概念也是 MPI 中的概念。以 4 个服务器，每个服务器 4 个 GPU 为例：
（1）size：进程数量，也即所有 GPU 数量，为 16
（2）rank：进程的唯一 ID，0-15
（3）local rank：每一个 server 中的进程的本地唯一 ID，0-3
（4）allreduce：累加所有数据，并同步到所有节点的操作。
（5）allgather：收集所有数据，并同步到所有节点的操作，完成后每个节点都包含所有节点的数据，并且这些数据单独存在。
（6）broadcast：将数据（需要由根节点确认）从一个节点传播到其他所有节点的操作。

四、例子（将单机单卡改为多机多卡）

将一个只支持单机单卡的训练脚本修改为支持多机多卡的训练脚本，以 TensorFlow 为例，只需要做如下改动：

import tensorflow as tf
import horovod.tensorflow as hvd


# Initialize Horovod
hvd.init()

# Pin GPU to be used to process local rank (one GPU per process)
config = tf.ConfigProto()
config.gpu_options.visible_device_list = str(hvd.local_rank())

# Build model...
loss = ...
opt = tf.train.AdagradOptimizer(0.01 * hvd.size())

# Add Horovod Distributed Optimizer
opt = hvd.DistributedOptimizer(opt)

# Add hook to broadcast variables from rank 0 to all other processes during
# initialization.
hooks = [hvd.BroadcastGlobalVariablesHook(0)]

# Make training operation
train_op = opt.minimize(loss)

# Save checkpoints only on worker 0 to prevent other workers from corrupting them.
checkpoint_dir = '/tmp/train_logs' if hvd.rank() == 0 else None

# The MonitoredTrainingSession takes care of session initialization,
# restoring from a checkpoint, saving to a checkpoint, and closing when done
# or an error occurs.
with tf.train.MonitoredTrainingSession(checkpoint_dir=checkpoint_dir,
config=config,
hooks=hooks) as mon_sess:
while not mon_sess.should_stop():
# Perform synchronous training.
mon_sess.run(train_op)

可以看出，改动不大，只需添加 10 行左右的代码，主要分为 6 步：

（1）初始化 Horovod

hvd.init()

（2）一个 GPU 与一个进程绑定

config = tf.ConfigProto()
config.gpu_options.visible_device_list = str(hvd.local_rank())

（3）根据总 GPU 数量放大学习率
因为 BatchSize 会根据 GPU 数量放大，所以学习率也应该放大。

opt = tf.train.AdagradOptimizer(0.01 * hvd.size())

（4）使用 hvd.DistributedOptimizer 封装原有的 optimizer
分布式训练涉及到梯度同步，每一个 GPU 的梯度计算仍然由原有的 optimizer 计算，只是梯度同步由 hvd.DistributedOptimizer 负责。

opt = hvd.DistributedOptimizer(opt)

（5）广播初始变量值到所有进程
主要为了确保所有进程变量初始值相同。

hooks = [hvd.BroadcastGlobalVariablesHook(0)]

（6）只在 worker 0 上保存 checkpoint

checkpoint_dir = '/tmp/train_logs' if hvd.rank() == 0 else None

可以看到Horovod 只是需要改动必要改动的，不涉及 Parameter Server 架构的 device 设置等繁琐的操作。

五、启动训练

在单机 4 卡的机上起训练，只需执行以下命令：

horovodrun -np 4 -H localhost:4 python train.py

在 4 机，每机 4 卡的机子上起训练，只需在一个机子上执行以下命令即可：

horovodrun -np 16 -H server1:4,server2:4,server3:4,server4:4 python train.py

注意无论是单机多卡，还是多机多卡，都只需在一个机子上执行一次命令即可，其他机 Horovod 会用 MPI 启动进程和传递数据。

六、性能

性能对比
Horovod 随着规模增大，性能损失远小于 TensorFlow，基本是线性增加的。

aaHHKK123

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Horovod学习笔记——初识horovod

一、Horovod简介Horovod 是一套面向 TensorFlow 的分布式训练框架，由 Uber 构建并开源，它的发展吸取了Facebook “Training ImageNet In 1 Hour” 与百度 “Ring Allreduce” 的优点，可为用户实现分布式训练提供帮助。Horovod 能够简化并加速分布式深度学习项目的启动与运行。通过利用消息传递接口（简称 MPI）实现应用环状规约，显著提升 TensorFlow 模型的实用性与性能表现。二、为什么要用Horovod随着大家训练机器
复制链接

扫一扫