分布式机器学习的地域性问题怎么解决？ DLion: Decentralized Distributed Deep Learning in Micro-Clouds 论文精读

kaiserqzyue

已于 2023-03-07 14:19:28 修改

阅读量328

点赞数

分类专栏：联邦学习/分布式机器学习文章标签：分布式机器学习去中心化

于 2023-03-06 16:32:33 首次发布

本文链接：https://blog.csdn.net/qq_45523675/article/details/129365344

版权

联邦学习/分布式机器学习专栏收录该内容

10 篇文章 5 订阅

订阅专栏

DLion是一个针对微型云的分布式深度学习架构，旨在解决计算性能差异和网络资源限制的问题。它通过动态批处理、优先级梯度交换和直接知识转移技术，优化训练速度和模型精度。在处理边缘设备数据时，DLion减少了对中央数据中心的依赖，同时考虑了用户隐私和设备性能局限性。

摘要由CSDN通过智能技术生成

原文链接：DLion (acm.org)

ABS

由于智能手机的普及，边缘设备会获得越来越多的用户数据，但是将所有的用户数据收集到数据中心进行分布式训练是不现实的，这主要设计用户隐私的问题。

同时如果直接将收集到的数据在用户的本地进行计算，当模型太大的时候，由于边缘设备的性能原因，此时训练会力不从心。

由于上述的两点原因作者希望提出一种基于微型云计算的分布式架构。

1 INTRO

边缘设备的普及产生了大量的数据，向传统的方式建立数据中心面临着两个问题：

需要移动的数据过多难以实现；
用户的隐私问题，用户并不愿意泄露自己的数据。

联邦学习的提出是为了解决隐私问题，该方法会直接在边缘设备进行训练，但是当模型过于大的时候，即使边缘设备需要处理的数据量很少，但是依然会花费很长的时间。（一个比较大的模型可能含有的参数大小是几百兆，也就是对于每个样本需要耗费几百兆的内存，这对于现在智能手机的 $8 GB ， 6 GB$ 的内存来说很吃力，这还没有考虑手机与计算机的算力差距）

微型云的性能要远远优于边缘设备，同时使用微型云可以只在局部区域进行数据的上传，这也一定程度上保护了用户的隐私。

$Figure\ 1$ 是使用微型云进行分布式计算的一个基本架构：

在这里插入图片描述

使用微型云进行计算存在两大挑战：

微型云的性能差异以及动态变化性：不同区域的微型云的性能差异可能较大，同时由于一个微型云中的设备可能会被安排处理其他服务，同一个微型云的性能也是随着时间动态变化的；
网络资源的不同以及动态性：同一个微型云内部通过 $L A N$ 进行通信，而不同的微型云则需要通过 $W A N$ ， $W A N$ 的资源是非常有限的，同时局域网资源会随着微型云中的结点个数增多而被稀释，即资源会发生动态变化。

大多数的分布式系统并没有考虑资源的不同以及动态性，这会导致训练时间的增长。

本文提出的 $D L i o n$ 主要就是为了解决带有异地性以及动态性特点的分布式系统的计算问题。

$D L i o n$ 使用了三个关键技术来解决上述的问题：

$Weighted\ dynamic\ batching$ ：该技术用于解决计算性能异地性问题。
$Per-link\ prioritized\ gradient\ exchange$ ：该技术用于解决网络异地性的问题。
$Direct\ knowledge\ transfer$ ：该技术用于提升模型的精度。

本文的主要贡献：

提出了能够解决异地性以及动态性的分布式系统；
设计的系统具有概述性和灵活性容易进行修改，可以适用于不同的分布式训练；
利用 $T e n sor Fl o w$ 建立了系统的原型，同时支持 $CP U$ 和 $GP U$ 版本。

2 Background and Motivation

2.1 Distributed Deep Learning

这一部分介绍了使用梯度下降的机器学习和使用梯度下降的分布式机器学习。

机器学习：计算梯度更新模型参数；

分布式机器学习：各个工作结点计算各自的梯度，汇总后更新参数。

2.2 Distributed Deep Learning Systems

实现带参数服务器的分布式机器学习的框架例如 $T e n sor Fl o w$ 和 $MXN e t$ 两者均提供了 $PS(Parameter\ Server)$ 的实现。

实现不带参数服务器的分布式计算的机器学习框架： $A k o, Ho p, P r a gu e$ 等。

$Figure\ 2$ 展示了二者的不同， $(a)$ 是带有参数服务器， $(b)$ 是无参数服务器（去中心化）

在这里插入图片描述

这些框架能够简化分布式机器学习的过程。

2.3 DL Learning in Micro-Clounds

整体的结构如 $Figure\ 3$ 所示，微型云的内部通过局域网连接，云之间则是通过广域网连接。

在这里插入图片描述

2.4 Challenges and Motivation

这里介绍的是 $Section\ 1$ 中提到了两个挑战，这里不在赘述。

3 Our Approach: DLion

3.1 Design Goals and Overview

设计的框架没有中心的参数服务器。

设计目标：

最大化数据并行，最大化数据并行能够减少模型训练所需要的时间，同时需要尽可能减少训练的精度损失。
减少通信耗时：减少结点之间的通信耗时的同时，需要尽可能减少模型的精度损失。
提升模型准确率：通过共享结点之间的数据来减少负面影响。

上述的三个目标依次对应前面提出的三个关键技术点。 $Figure\ 4$ 展示了这三个关键技术点的使用时间以及整个工作流程：

在这里插入图片描述

3.2 Weighted Dynamic Batching

首先介绍两个概念：

$L BS$ ： $Local\ Batch\ Size$ 每个参与计算的工作结点的本地批量大小。
$GBS$ ：整个分布式系统进行一轮训练的全局批量大小，也就是所有结点各自的 $L BS$ 之和。

需要注意的是在传统的分布式系统架构中，各个工作结点所拥有的 $L BS$ 是相同。

通常可以通过增加 $L BS$ 和结点的个数来增加 $GBS$ ，而在这里我们只讨论通过改变 $L BS$ 来改变 $GBS$ 的情况，而工作结点的个数固定为 $n$ 。

增加 $GBS$ 有好处也有坏处：

好处：相当于增加的计算量，训练所需要的时间会减少；
坏处：增大 $GBS$ 通常会导致最终的训练精度下降。

所以增大 $GBS$ 需要找到一个合适的值，这样能够尽可能的减少训练时间，同时不至于损失太多的精度。

之前有文章指出，对于模型的最终收敛精度不一定需要通过控制学习率来提升，也可以通过定期的改变 $GBS$ 来实现，本文正是收到这一点的启发，于是设计了能够自动调节的控制器，该控制器能够减少计算时间同时几乎不会损失模型的精确度。

在各个工作结点的计算性能相同并且不变的情况下，将每个节点的 $L BS$ 设置为 $\frac {GBS}{n}$ 是合理的。但是实际情况是每个工作结点的性能并不相同，同时每个过左结点的性能可能会发生波动，如果在这种情况下依然将 $L BS$ 设置为相等，那么先完成的节点必须等待最后完成的结点，这会导致模型计算所需要的时间上升。

$weighted\ dynamic\ batching$ 方法拥有三个组件：

$GBS\ Controller$ ：自动的控制 $GBS$ 的增减。改组件的设计灵感来源与两个发现：在训练开始的阶段增大 $GBS$ 会带来较为严重的精度下降；在后续的阶段增大 $GBS$ 带来的精度下降是比较下且稳定的（可以看 $Figure\ 5$ ，其中横轴代表在第几个 $e p oc h$ 增大 $GBS$ ，纵轴代表最终的模型精度）。这两个发现促使作者将该组件的工作流程划分为两个阶段： $w a r m - u p$ 和 $s p ee d - u p$ 。在第一个阶段： $GBS_{t+1}=GBS_t + C_{warmup}$ ，当增大到总体数据量的 $1\%$ 时将会停止增加（防止过大的增加导致精度下降）。在第二阶段： $GBS_{t+1}=GBS_t\times C_{speedup}$ ，当增大到总体数据量的 $10\%$ 时停止增长（现有的研究发现不应该是 $GBS$ 过大），参数 $C$ 是需要进行设置的。
$LBS\ Controller$ ：确定完 $GBS$ 后，该组件会确定每个工作结点各自的 $L BS$ 。 $L BS$ 的设计理念很简单，计算能力强的结点的 $L BS$ 会更大，通过计算能力强弱的比例关系进行数据量的分配。（这样能够保证所有结点完成计算的时间接近）， $Figure\ 6$ 展示了随着训练的进行，各个节点的 $L BS$ 的调整情况。 $L BS$ 具体的计算公式如下， $RCP$ 代表 $relative\ computation\ power$ （相对计算能力）：
$LBS_i=GBS\frac{RCP_i}{\sum_{j=1}^{n}RCP_j}$
$weighted\ model\ update\ module$ ：该模块负责参数的聚合，结点 $j$ 计算完本题的梯度后得到 $g_t^j$ ，结点 $k$ 收到结点 $j$ 之后的聚合过程会进行如下的更新：
$w^k_{t+1}=w^k_t-\eta \frac 1 n\sum_{j=1}^{n}db^k_jg^j_t\\ db^k_j=\frac {LBS_j}{LBS_k}$

在这里插入图片描述

3.3 Per-Link Prioritized Gradient Exchange

$Data\ quality\ assurance\ module$ ：该模块负责选择重要的梯度进行更新，使用 $Max\ N$ 算法该算法会选择绝对值大于等于绝对值最大的梯度的 $N\%$ 的梯度进行更新。

$Figure\ 7$ 展示了不同的 $N$ 对于模型的准确率的影响。

在这里插入图片描述

$Transmission\ speed\ assurance\ module$ ：该模块用于自动确定 $Max\ N$ 算法中的 $N$ 。确定方法是需要让网络环境不成为瓶颈的情况下竟可能的选取更大的 $N$ ，在该模块中，结点 $i$ 向结点 $j$ 能够发送的梯度大小是由下列公式进行评估的：
$\frac {BW\_{net_j}}{Iter\_com_i}\\ BW\_{net_j}代表两个结点直接的可用带宽\\ Iter\_com_i代表单位时间内结点i能够进行的迭代次数$
上式的核心就是让计算时间和通信时间相等。

$Figure\ 8$ 是结点 $1$ 向结点 $3$ 和结点 $5$ 发送的梯度大小随着迭代次数的进行的自动调整过程：

在这里插入图片描述

3.4 Direct Knowledge Transfer

由于上面介绍的方法中没有使用参数服务器，而且采用了异步的方法，参与训练的各个结点所拥有的参数是可能存在不同的。

该部分的方法就是周期性的进行参数交换：选择出训练效果最好的结点，其他结点从该结点获取参数。

采用该方法需要解决几个问题：

训练的什么时候进行；
需要向所有的结点都发送吗（这是一笔比较大的开销）；
对于收到的参数如何进行聚合，是直接替换还是求平均呢？

为了解决上述的三个疑问，作者做了一些实验。

$Figure\ 9$ 展示了实验结果：

在这里插入图片描述

(a)代表的是不同的时间进行 $DK T$ 训练完成（达到相同的精度）需要的时间， $early\ DKT$ 代表的是在训练的早期进行， $late\ DKT$ 代表在训练的后期进行，作者发现在早期进行 $DK T$ 能够获得更好的精度。而上述 $DKT\ 100iter$ 代表每隔 $100$ 轮进行一次，可以看到如果进行的越频繁由于需要大量的网络资源，所以训练时间会增加，而如果间隔的时间过长，由于没有进行好的参数的交互会导致收敛速度的下降从而导致训练需要更多的时间。
(b)代表了向不同结点发送的结果：不使用，每次向效果最差的结点发送，每次向所有结点发送。可以看到只向最差的结点发送就能获得很大的精度提升。但是为了更好的准确性后面的实现依然选择发送给所有的结点。
使用更新公式： $w_{local}=(1-\lambda)w_{local}+\lambda w_{best}$ ，随着 $\lambda$ 的增加，最好的权重占比增加，可以看到在 $\lambda=0.75$ 的时候效果最好。