协作D2D局部模型聚合的半分散联合学习

物腐虫生

已于 2022-08-07 13:18:35 修改

阅读量528

点赞数

分类专栏：无人机文章标签：学习

于 2022-08-04 20:10:37 首次发布

本文链接：https://blog.csdn.net/m0_51928767/article/details/126139056

版权

无人机专栏收录该内容

6 篇文章 0 订阅

订阅专栏

摘要

提出了双时间尺度混合联邦学习（TT-HF），这是一种半分散式学习体系结构，将用于联邦学习的传统设备到服务器通信范式与用于模型训练的设备到设备（D2D）通信相结合。

传统联邦学习
在每次迭代中，每个设备基于其自己的数据集训练局部模型，通常使用（随机）梯度下降。然后，设备将其本地模型上载到服务器，服务器通常使用加权平均值将其聚合为全局模型，并将设备与此新模型同步，以启动下一轮本地训练。

为了降低上行链路和下行链路传输的成本，提出了局部模型训练与周期性但不频繁的全局聚合相结合。
然而，局部数据集可能在其统计分布中表现出显著的异质性，导致学习模型可能偏向于局部数据集，因此降低了全局模型的准确性.

创新点	具体实现
每个全局聚合间隔期间，设备会进行D2D通信	（i）在其单个数据集上执行多多次随机梯度下降迭代，（ii）通过本地集群内的协作分布式D2D通信，不定期地参与其模型参数的协商过程。
开发了一种自适应控制算法	可以随时间调整TT-HF的步长、D2D通信轮数和全局聚合周期，以达到O（1/t）的次线性收敛速度，同时最小化网络资源利用率。
TT_HF	（i）涉及设备到设备和设备到服务器通信之间的混合（ii）包含两个用于模型训练的时间尺度：单个设备上的随机梯度下降迭代和集群内的多轮协作D2D通信。详细见下文。
量化设备级随机梯度更新、集群级共识过程和网络级全局聚合之间的关系	使用它们来调整每个本地更新和共识周期的长度。

TT_HF
（i）涉及设备到设备和设备到服务器通信之间的混合
（ii）包含两个用于模型训练的时间尺度：单个设备上的随机梯度下降迭代和集群内的多轮协作D2D通信。
在全局聚合期间，集群中只有一个设备需要将集群模型上传到服务器，
具体来说，在联邦学习的本地更新间隔期间，设备可以系统地与其附近的其他设备共享其模型参数，以在每个边缘设备集群之间形成分布式共识。
在每个本地训练间隔结束时，假设每个设备的模型现在反映了其集群的一致性，则主服务器可以从每个集群中随机抽取一个设备进行全局聚合。

结果：联邦学习的一个版本，它优化了全局模型收敛特性，同时最小化了系统中的上行链路通信需求。

推荐文献：全面了解联邦学习
[28] S. Abdulrahman, H. Tout, H. Ould-Slimane, A. Mourad, C. Talhi, and M. Guizani, “A survey on federated learning: The journey from centralized to distributed on-site learning and beyond,” IEEE Internet Things J., vol. 8, no. 7, pp. 5476–5497, Apr. 2021.
[29] T. Li, A. K. Sahu, A. Talwalkar, and V . Smith, “Federated learning: Challenges, methods, and future directions,” IEEE Signal Process. Mag., vol. 37, no. 3, pp. 50–60, May 2020.

就无线通信效率而言，有几项工作研究了在连续全局聚合之间执行多轮局部梯度更新的影响，包括根据总资源预算优化聚合周期。
为了进一步减少对全局聚合的需求，[31]提出了一种用于联邦学习的分层系统模型，其中边缘服务器用于部分全局聚合。
[31] L. Liu, J. Zhang, S. Song, and K. B. Letaief, “Client-edge-cloud hierarchical federated learning,” in Proc. IEEE Int. Conf. Commun.
(ICC), vol. 2020, pp. 1–6.
还提出了模型量化[]和稀疏化技术。
本文提出了一种半分散架构，其中D2D通信用于与全局聚合一起在节点之间交换模型参数。

针对数据异构性，[34]中，作者建议将局部数据集的一部分上传到服务器，然后用于增强全局模型训练。
[34] N. Y oshida, T. Nishio, M. Morikura, K. Y amamoto, and R. Y onetani,
“Hybrid-FL for wireless networks: Cooperative learning mechanism
using non-IID data,” in Proc. IEEE Int. Conf. Commun. (ICC), Jun. 2020,
pp. 1–7.
本文利用D2D通信在设备之间交换模型参数，这缓解了此类担忧。

将设备间的分布式协作学习引入到本地更新过程中，形成了一种具有D2D增强学习的新型系统架构。
可同时解决通信效率和数据异构性挑战。
在这种情况下
（i）设备可能在全局聚合之间进行多次（随机）梯度迭代，
（ii）全局聚合是非周期的，
（iii）设备之间的共识过程可能在每个全局聚合期间不周期地发生。

系统模型和学习方法

支持D2D的集群的边缘网络系统模型

边缘设备集合 I、集群 Sc、节点 i 的邻居集合 Ni、网络图 Gc
网络由边缘服务器（例如，在基站）和I个边缘设备组成，设备被划分为N个集群 S1-Sn
假设集群是基于设备进行低能耗D2D通信的能力形成的，
对于边缘设备i∈ Sc，根据节点的发射功率、节点之间的信道条件及其物理距离确定（其D2D邻居集（ Ni ⊆ Sc）。
当节点互为邻居（各在其邻居集合中）且同属一个集群时，可假设D2D通信是双向的。
在此基础上，将网络图 Gc=（ Sc，E（特殊字母）c）与每个簇相关联，其中Ec表示边集：（i，i0）∈ Ec 当且仅当 i ∈ Sc 和 i ∈ Ni0。
对于每一个集群，设定网络图 Gc =（Sc，Ec），Ec为边集，当节点i为i0邻居时，将（i，i0）加入边集。（像是用有向图表示集群内的网络拓扑）
模型训练通过k=1，2，····索引的全局聚合序列进行。
在全局聚合的间隔，边缘设备i将参与邻居设备的cooperative consensus procedure

由于设备的移动性，每个集群的拓扑结构（即节点数量及其在集群内的位置）可能会随着时间而变化，尽管我们假设与两个全局聚合之间的时间相比，这种演变是缓慢的。

机器学习系统模型

每个边缘设备i拥有一个数据集Di，每个数据点（x，y）∈ Di由一个多维特征向量x和标签y组成。
每个节点对全局损失函数的贡献相等，具体表现如下：
让ˆf（x，y；w）表示与基于学习模型参数向量w的数据点（x，y）相关联的损失，各节点的本地损失函数定义为：

每个集群的损失函数为

ρi,c=1/sc是与边缘设备i在其集群Sc内的关联权重。
全局损失函数定义为集群中的平均损失，即如下形式：

其中，Qc为相对集群大小

（3）式也可改用数据点上的平均性能表示：
F（w）=
每个边结点相对于网络的权重可表示为pi=pc*pi,c=1/I，即每个节点对全局损失函数的贡献相等

ML模型训练的目标是找到最优模型参数。

本文在全局模型中给予数据点数量较少的设备相同的优先级。
定义了一个新的通用度量，以测量本地数据集的非i.i.d.统计异质性/程度：

假设

F is µ-strongly convex
（凸面机器学习损失函数：例如平方支持向量机和线性回归，在实践中使用正则化项来实现，以提高收敛性并避免模型过度拟合，这使它们具有强凸性）
Fi is β-smooth

TT-HF：双时间尺度混合联邦学习

1）概述和基本原理

由非周期全局聚合之间的一系列局部模型训练间隔组成。在每个间隔期间，设备进行局部随机梯度下降（SGD）迭代，并通过集群内的局部一致性过程非周期地同步其模型参数。
将本地共识程序纳入学习范式的三个原因：
①本地一致性可以帮助进一步抑制设备模型对其本地数据集的任何偏差（这是在网络中数据可能是非i.i.d.的环境中联合学习面临的主要挑战之一）
②在协商一致过程期间的本地D2D通信通常在短距离内执行，与全局聚合相比，预期会产生更低的设备功耗
③D2D正在成为5G和其他无线网络的普遍特征

2）TT-HF程序

我们将时间索引为一组离散时间索引T，全局聚合k发生在时间Tk，因此Tk表示第k-1次和第k次聚合之间的第k个本地模型训练的间隔（持续时间）
一般而言，各时间间隔不一致
时间索引t捕捉本地下降迭代和全局聚集。
时间索引t0捕获这些本地聚合的轮数。
模型训练过程：
服务器广播初始模型w0，各设备以此初始化本地模型

本地SGD迭代

每个设备都有自己的本地模型，随着时间执行连续的局部SGD迭代。
在本地模型训练间隔Tk中，设备i从本地数据集中随机抽样一小批固定大小的样本（mini-batch），计算其本地梯度估计值（local gradient estimate），然后计算中间的（intermediate）本地更新模型。

nt-1位步长（需大于0）
本地模型根据下述基于共识的程序进行更新

本地模型更新

捕获本地梯度迭代经过的时间的索引t：
在Tk（设置一下注释）的每个时刻，每个集群可以参与用于模型更新的本地共识过程。
基于性能-效率权衡优化，来决定是否参与这一共识进程及运行多少次迭代。
如果设备不执行协商一致过程，则进行传统的模型更新规则。
否则，将进行多轮D2D通信，其中在每一轮中，参数传输发生在相邻设备之间。
特别地，t间隔，集群c中各节点i将执行以下操作：

其中，zi（0）是是来自式子（10）的节点的中间局部模型，
vi，j是节点i应用于从j接收的向量的一致权重
操作结束时，节点i将该式的最后一项（即z上标为该情景）其作为更新的局部模型

索引t0（t0即t‘）对应于TT-HF中的第二时间标度，关于协商一致进程。
其中在某些本地迭代t处运行共识过程t0。
为了分析这个更新过程，我们将发现用矩阵形式表示一致性过程是很方便的，用wc（t）表示集群中节点的中间更新本地模型矩阵：
第i行对应于设备i的中间本地模型wi（t）
共识阶段后更新的设备参数矩阵表示为：

Γ(t)c表示集群中的D2D共识轮数，
Vc表示共识矩阵：第i行对应于设备i的本地更新，用于计算下一次本地更新的梯度估计
在未进行共识的情况下，将Γ(t)c = 0，W(t)c = fW(t)c，使得设备使用它们各自的梯度更新。

共识特征

共识矩阵Vc可以基于集群拓扑Gc以多种方式构建。
假设2：共识矩阵Vc满足以下条件：（1）节点只从它们的邻居接收；（2）行随机性（3）对称；（4）VC-11t / sc的最大特征值小于1
共识程序过程可以被视为每个集群中模型的不完美集合。具体来说，我们可以在设备i上写入本地参数
一个是集群中本地模型的平均值，另一个是设备间有限的D2D回合引起的共识误差。
为了使一致性误差更小，需要执行更多轮的一致性。然而，由于能量和延迟的考虑，这可能是不切实际的，因此在一致性误差和能量/延迟成本之间出现了折衷。这种折衷将通过本文开发的自适应控制算法调整Γ(t)c（表示集群中的D2D共识轮数）来优化。

全局聚合

在每个本地模型训练间隔 Tk 结束时，全局模型 w 将根据训练的本地模型更新进行更新。
主服务器会从每个集群 c 中统一随机采样一个设备，并请求这些设备上传它们的本地模型，这样新的全局模型就更新为

nc是在时间 t 从集群 c 中采样的节点。
将上行链路通信成本降低，其系数为集群大小。（This sampling technique is introduced to reduce the uplink communication cost by a factor of the cluster sizes, and is enabled by the consensus procedure, which mimics a local aggregation procedure within a cluster ）
然后，主服务器将全局模型广播给所有边缘设备，这些设备在时间tk覆盖它们的本地模型
然后在Tk+1时刻重复该过程。

备注：本文考虑数字传输(在D2D和上行链路/下行链路通信中)，其中在编码/解码中使用最先进的技术，例如低密度奇偶校验(LDPC)码，误码率(BER)相当小，可以忽略不计。

TT-HF的收敛性分析

从理论上分析

定义和约束模型的散布

介绍一个关于梯度估计噪声的标准假设
然后定义一个关于集群的平均共识误差的上界。
通过设备 i 的 SGD 过程估计梯度的噪声为ni（t）
时间t时集群c内的平均共识误差的上限为 ?(t)c
定义了在特定时间内各集群的模型的预期差异，称之为模型分散性。
将时间t时各集群的预期模型分散度定义为

w（t）是时间t的本地模型的全局平均值，wct是式子13
At衡量集群模型在整个训练过程中偏离其平均值的程度。
。。。看不懂了，放过。。。

全局损失的一般收敛行为

将全局损失与最优值之间的预期距离限制为模型离散度的函数。
目标是让 TT-HF 在步长减小的情况下匹配集中式随机梯度下降 (SGD) 的渐近收敛行为，

全局损失的次线性收敛率

。。。看不懂了，放过。。。

TT-HF的自适应控制算法

TT-HF 中有三个参数可以随时间调整：
(i) 本地模型训练间隔 τk，
(ii) 梯度下降步长 ηt
(iii) D2D 通信轮次Γ(t)c 。
开发了一种基于定理 2 的控制算法（Sec. IV -D），用于调整 (i)、(ii) 在每个全局聚合开始时在主服务器上以及 (iii) 在每个设备集群一种去中心化的方式。

学习相关参数（α、γ、φ、ηt）

本地训练周期 (τk) 和共识轮次 (Γ(t)c )

TT-HF 背后的主要动机之一是在模型训练期间最大限度地减少边缘设备之间的资源消耗。因此，我们建议根据三个指标的联合影响调整 τk 和 Γ(t)c 参数：能耗、共识施加的训练延迟和训练的模型性能。为了捕捉这种权衡，我们制定了一个由主服务器在每个全局聚合周期 Tk 开始时解决的优化问题 §

数据和模型相关参数 (δ, ζ, σ2, Y(t)c )

估计δ, ζ, σ2：这些参数可以由主服务器在模型训练时进行估计。服务器可以通过在采样设备处接收来自 SGD 的最新梯度来估计每个全局聚合中的 δ 和 ζ。 σ2 可以首先在采样设备上进行本地估计，然后在主服务器上确定。

TT-HF with Adaptive Parameter Control

初始化不同参数的估计值，确定 φ 的值，并设置模型训练的第一个周期
在本地模型训练间隔期间，在每个时间步长中，设备
(i) 计算 SGD 更新，
(ii) 估计集群模型分歧，
(iii) 确定 D2D 共识轮数，
(iv) 进行共识处理它们的相邻节点。
在全局聚合实例中，采样设备计算其估计的局部 SGD 噪声，并将其连同其模型参数向量、梯度向量和上一轮全局聚合轮中的集群参数散度估计值一起传输到服务器
服务器
(i) 更新全局模型，
(ii) 估计步长的 ζ、δ0、σ，
(iii) 估计 (33) 中使用的线性模型系数，
(iv)得到下一个局部模型训练区间的最优长度τk+1，
(v) 广播更新的全局模型、步长系数、局部模型训练间隔和一致性系数，以及下一个全局聚合的采样设备的索引。

信道模型：我们假设 D2D 通信是使用正交频分技术进行的，例如 OFDMA，以减少跨设备的干扰。
数据集：考虑 MNIST 和 Fashion-MNIST (F-MNIST)，
这两个数据集通常用于图像分类任务。每个数据集包含 70K 图像（60K 用于训练，10K 用于测试），其中每张图像分别是手写数字和时尚产品的 10 个标签之一。
机器学习模型：考虑来自两个不同 ML 分类器的损失函数：正则化（平方）支持向量机（SVM）和全连接神经网络（NN）。
使用 PyTorch 中的标准函数实现。

1）本地共识降低全局聚合频率
2）D2D 增强 ML 模型性能
与 i.i.d. 相比，只有当节点间的数据分布是非 i.i.d. 时，通过 D2D 通信获得的增益才存在。
3) 收敛行为

具有自适应参数控制的 TT-HF
与基线相比提高了资源效率

跨本地设备的本地数据集中的数据异构性可能导致联邦学习算法的性能显着下降。在这种情况下，较长的本地更新周期将导致模型明显偏向本地数据集，并降低全局模型的收敛速度和最终模型的准确性。
本文对策：通过在 TT-HF 中将联邦聚合与本地设备集群之间的协作 D2D 共识过程相结合，有效地减少了本地模型对本地数据集的偏差，并以较低的成本加速收敛（即利用低功率 D2D 通信来降低通过上行链路传输执行全局聚合的频率）
通过本文提出的方法进行 D2D 通信减少了节点模型对其本地数据集的局部偏差，这是联邦学习面临的主要挑战之一。

结论

自适应控制算法，可以在整个训练过程中主动调整设备学习率、集群共识轮次和全局聚合周期。
优化方向：
(i) 跨边缘设备的计算能力的异构性，
(ii) 从集群到服务器的不同通信延迟，
(iii) D2D 通信引起的无线干扰。
此外，本文中提供的一组新技术可进行收敛分析，未来目标是将其扩展到非凸设置。包括获得保证接近全局损失函数的固定点的条件，以及实现收敛的速率。