【论文阅读】Device Sampling for Heterogeneous Federated Learning: Theory, Algorithms, and Implementation

最新推荐文章于 2023-09-07 19:16:59 发布

九九喵99

最新推荐文章于 2023-09-07 19:16:59 发布

阅读量445

点赞数

分类专栏：论文阅读

本文链接：https://blog.csdn.net/qq_40963226/article/details/119819355

版权

论文阅读专栏收录该内容

2 篇文章 0 订阅

订阅专栏

异构联邦学习的设备采样: 理论，算法，实现

一、文章介绍
二、背景和目的
三、建模
四、方法
五、总结

一、文章介绍

这篇文章被INFOCOM2021接收，解决的是异质联邦学习的设备采样问题。基于网络拓扑和设备性能限制，作者尝试在“节点采样”和“数据分流”中寻找一个最优组合。通过理论分析，作者提出了一个基于GCN的设备采样方法，探索“网络属性”、“采样节点”、“结果分流”之间的关系，最大化FL的精度。IoT设备上的实验表明了方法的有效性。

二、背景和目的

联邦学习会采样部分节点进行聚合，这些节点的性能和数据各异。我们希望（1）减少这些被采样的节点数据之间的相似性（更能代表全局数据信息），同时又（2）提升联邦学习的训练运行速度。
在这里插入图片描述
如图2所示，有 ABCDE 五个设备，“边”代表设备间数据的相似性，“顶点”代表设备性能。显然A（35）、B（30）性能相对更高，但A、B数据很相似（0.97），同时选A和B是不合适的。E和D数据差异大，但性能低，同时选择E和D也不合适。C（25）性能适中，利用D2D将E和D的数据分流到C，C的数据就包含了三个设备的数据信息。

作者利用这个例子，想说明：节点采样需要同时考虑“数据”和“性能”，数据分流是个可利用的方案。

三、建模

1、边缘设备模型

一组设备 $\mathcal{N}=\{1, \cdots, N\}$ 与服务器连接。对设备 $\in \mathcal{N}$ 来说：

数据处理能力 $P_i(t)\ge0$ ，单位数据处理成本 $p_i(t)\ge0$ （异质、时变）；
数据传输预算 $\Psi _i(t)>0$ ，单位数据传输成本 $\psi _{i,j}(t)>0$ （与带宽，信道干扰有关），距离更近的设备可能 $\psi _{i,j}(t)>0$ 更小；
局部数据集 $\mathcal{D}_i(t)$ （会因数据分流随t改变），数据样本数 ${D}_i(t)=|\mathcal{D}_i(t)|$ ；

2、网络拓扑

时变网络图 $G=(\mathcal{N}, \mathcal{E}(t))$ ， $N$ 表示可用的D2D拓扑， $\mathcal{E}(t)$ 表示图的边；
图的邻接矩阵定义为 $\mathbf{A}(t)=\left[A_{i, j}(t)\right]_{1 \leq i, j \leq N}$ ，当 $(i,j)\in \mathcal{E}(t)$ 表示 t 时刻节点 $i$ 可以传输数据给 $j$ ，有 $A_{i, j}(t)=1$ ，反之为0；
$\Phi_{i, j}(t) \in[0,1]$ 表示节点 $i$ 给 $j$ 数据分流的比例（根据数据相似度来决定）；
相似度矩阵 $\boldsymbol{\lambda}(t) \triangleq\left[\lambda_{i, j}(t)\right]_{1 \leq i, j \leq N}$ ，其中 $0\le\lambda_{i, j}(t)\le1$ ；
连接-相似度矩阵 $\boldsymbol{\Lambda}(t) \triangleq \boldsymbol{\lambda}(t) \circ \mathbf{A}(t) = \left[\Lambda_{i, j}(t)\right]$ ，其中 $\circ$ 表示哈达玛积；

3、联邦学习模型

联邦学习中，每 $\tau$ 个周期聚合一次，有聚合公式：

$\mathbf{w}_{\mathcal{S}}(k \tau)=\frac{\sum_{i \in \mathcal{S}} \Delta_{i}(k \tau) \mathbf{w}_{i}(k \tau)}{\sum_{i \in \mathcal{S}} \Delta_{i}(k \tau)}$

其中， $\mathcal{S}$ 表示被选择的设备集合， $\Delta_{i}(k \tau) \triangleq \sum_{t=(k-1) \tau+1}^{k \tau} D_{i}(t)$ 表示节点 $i$ 在第 $k - 1$ 到 $k$ 次聚合期间的局部总数据量。

联邦学习的目标是最小化基于所有设备的全局损失：

$F\left(\mathbf{w}_{\mathcal{S}}(t) \mid \mathcal{D}_{\mathcal{N}}(t)\right)=\frac{\sum_{i \in \mathcal{N}} D_{i}(t) F\left(\mathbf{w}_{\mathcal{S}}(t) \mid \mathcal{D}_{i}(t)\right)}{D_{\mathcal{N}}(t)}$

4、建模总结

我们定义 $\mathbf{x} \triangleq\left(x_{1}, \cdots, x_{N}\right)$ 表示设备选择状态（被选择则 $x_i=1$ ），要最优化两个目标（1）采样设备集 $\mathcal{S^*}$ 和（2）分流比例 $\Phi^*_{i, j}(t)$ ，以此最小化全局损失，即，将优化问题 $\mathcal{P}$ 表示为：

$(\mathcal{P}): \underset{\mathbf{x},\{\boldsymbol{\Phi}(t)\}_{t=1}^{T}}{\operatorname{minimize}} \frac{1}{T} \sum_{t=1}^{T} F\left(\mathbf{w}_{\mathcal{S}}(t) \mid \mathcal{D}_{\mathcal{N}}(t)\right) \quad...........\quad(1)$

约束条件：

节点 $i$ 在 t 时刻的数据量为 $D_{i}(t)=D_{i}(t-1)+R_{i}(t), i \in \mathcal{N}$ ；
数据计算开销要在设备承受范围内 $p_{i}(t) D_{i}(t) \leq P_{i}(t)$ ；
节点 $k$ 传给 $i$ 的数据量 $R_{i}(t)=\sum_{k \in \mathcal{N}} D_{k}(t-1) \Phi_{k, i}(t)\left(1-\Lambda_{k, i}(t-1)\right), i \in \mathcal{N}$ ；
要满足（1） $R_{i}(t) \leq \theta_{i}(t)$ ，后者为节点 $i$ 的设备接收容量，（2） $\sum_{i \in \mathcal{N}} \Phi_{k, i}(t) \leq 1$ ，节点 $k$ 分流出去的数据量不超过自己的数据量；
数据传输开销要在设备承受范围内 $D_{k}(t-1) \sum_{i \in \mathcal{N}} x_{i} \Phi_{k, i}(t) \psi_{k, i}(t) \leq \Psi_{k}(t), k \in \mathcal{N}$ ；
更新连接-相似度 $\Lambda_{k, i}(t)=\Lambda_{k, i}(t-1)+\left(1-\Lambda_{k, i}(t-1)\right) \Phi_{k, i}(t), i, k \in \mathcal{N}$ ；
保证数据分流只发生在相互信任的未采样节点 $\in \hat{\mathcal{S}}$ 到采样节点 $i\in \mathcal{S}$ 之间；

四、方法

1、数据分流

作者基于若干定义和假设，推导得到了目标（1）的近似（对于 $\mathbf{x}$ 已知的情况）：

$(\mathcal{P}): \underset{\{\boldsymbol{\Phi}(t)\}_{t=1}^{T}}{\operatorname{min}}\frac{1}{T} \sum_{t=1}^{T} \underbrace{\left(\frac{D_{\mathcal{N}}(t)-D_{\mathcal{S}}(t)}{D_{\mathcal{N}}(t)}\right) \overline{\nabla F(t)}}_{(a)}+\frac{1}{|\mathcal{S}|} \sum_{i \in \mathcal{S}} \underbrace{\frac{\gamma}{\sqrt{D_{i}(t)}}}_{(b)},$

进一步将实时梯度近似为服务器上观察到的梯度：

$\overline{\nabla F(t)} \approx \overline{\nabla F(k \tau)} / \alpha_{k+1}^{t-k \tau}$

其中 $\alpha_{k+1}=\sqrt[\tau]{\overline{\nabla F((k-1) \tau)} / \overline{\nabla F(k \tau)}}$ 。

作者将以上问题作为随时间变化的凸优化问题来解决，采用了CVXPY凸优化库进行了求解，得到了 $t$ 时刻最优数据分流解 $\boldsymbol{\Phi}(t)^*$ 。

2、设备采样

（1）核心思想

在这里插入图片描述上图为基于GCN的设备采样方案，作者采用两层GCN:

节点特征向量 $\boldsymbol{\pi}_{i} \triangleq\left[D_{i}(0), P_{i}(0), p_{i}(0), \theta_{i}(0)\right]$
增广连接-相似度矩阵 $\tilde{\mathbf{A}} \triangleq\mathbf{\Lambda}(\mathbf{0})+\mathbf{I}_{N}$

GCN输出得到每个节点被采样的概率 $\mathbf{\Gamma} \in[0,1]^{N}$ 。

（2）GCN训练过程

随机生成若干组采样网络和节点数据 $e = 1, \cdot \cdot \cdot, E$ ;
对每一组生成，我们可以基于 $\boldsymbol{\pi}_{e}$ 和 $\tilde{\mathbf{A}}_{e}$ 凸优化求解得到最优分流比例；
计算FL的损失，损失最小的组 $\mathbf{x}_{e}^{\star}$ 作为GCN的输出标签；

上述操作为GCN提供了训练样本 $\left[\left(\boldsymbol{\pi}_{e}, \tilde{\boldsymbol{A}}_{e}, \mathbf{x}_{e}^{\star}\right)\right]_{e=1}^{E}$ ，以此训练好GCN。

3、联邦学习训练过程

对于一个目标图网络，我们已知它的 $\boldsymbol{\pi}$ 和 $\tilde{\mathbf{A}}$ ，将其输入到训练好的GCN中得到概率输出 $\boldsymbol{\Gamma}=H(\boldsymbol{\pi}, \tilde{\mathbf{A}}), \boldsymbol{\Gamma}=\left[\Gamma_{\bar{i}}\right]_{1 \leq i \leq N}$ ，接下来

首先根据概率最大选择第一个节点 $\cup\left\{s_{1}\right\}$ ，即 $s_{1}=\arg \max _{i \in \mathcal{N}_{p}}$ ，其中 $\mathcal{N}_{p}$ 是初始数据量98th百分点集合；
然后基于采样概率最高、聚合数据相似度最小选择后续采样节点 $\cup\left\{s_{n}\right\}$ ，具体来说， $s_{n}=\arg \max _{i \in \mathcal{R}_{s_{n-1}}} \Gamma_{i}$ ，其中 $\mathcal{R}_{s_{n-1}}$ 表示 $s_{n-1}$ 的数据不相似度98th百分点邻居节点集合；
一旦采样节点被确定后，求解最优数据分流方案并分流数据；
FL训练并聚合模型。

五、总结

这篇文章知识量很大，考虑了D2D场景下的联邦学习，提出数据分流方案，并对数据分流提供了严密的理论分析，利用理论求得最优分流解（这里我没有细看理论推导过程）。同时，采用GCN来最优化设备采样方案。无论是在方法、理论、工作量这几个方面上都很强。

九九喵99

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
【论文阅读】Device Sampling for Heterogeneous Federated Learning: Theory, Algorithms, and Implementation

异构联邦学习的设备采样: 理论，算法，实现一、文章介绍二、背景和目的三、建模1、边缘设备模型2、网络拓扑3、联邦学习模型4、建模总结四、方法1、数据分流2、设备采样（1）核心思想（2）GCN训练过程3、联邦学习训练过程五、总结一、文章介绍这篇文章被INFOCOM2021接收，解决的是异质联邦学习的设备采样问题。基于网络拓扑和设备性能限制，作者尝试在“节点采样”和“数据分流”中寻找一个最优组合。通过理论分析，作者提出了一个基于GCN的设备采样方法，探索“网络属性”、“采样节点”、“结果分流”之间的关系，最
复制链接

扫一扫