【文献阅读】联邦学习中设备的灵活参与

晨曦未眠

已于 2023-03-07 09:06:27 修改

阅读量291

点赞数 1

分类专栏：联邦学习文献阅读文章标签：人工智能 python 深度学习

于 2022-12-14 22:47:56 首次发布

本文链接：https://blog.csdn.net/m0_51562349/article/details/128279673

版权

联邦学习同时被 2 个专栏收录

10 篇文章 6 订阅

订阅专栏

文献阅读

8 篇文章 0 订阅

订阅专栏

这是张老师的二作文章，可得好好读。

摘要

传统的联邦学习算法对设备的参与率有严格的要求，这限制了联邦学习的潜在覆盖范围。本文扩展了当前的学习范式，以包括可能变得不活跃、计算不完整更新以及在训练过程中离开或到达的设备。我们得出了分析结果，以说明当数据non-IID时，允许更灵活的设备参与影响学习收敛。
然后，文章提出了一种新的联邦聚合方案，即使设备可能处于非活动状态或返回不完整的更新，该方案也会收敛。我们还研究了学习过程如何适应早离或晚到，并分析了它们对收敛的影响。

1 引言

考虑到联邦学习通常需要数千个通信轮才能收敛，因此在实践中很难确保在整个训练过程中所有设备都可用。此外，通常有多个应用程序同时运行在用户设备上，竞争已经高度受限的硬件资源。因此，不能保证设备在每一轮训练中都能按预期完成指定的训练任务。
虽然已经提出了许多方法来减轻单个设备的工作负载，如权重压缩和联邦dropout，但它们不能完全消除设备无法履行其训练职责的可能。因此，在大规模联邦学习中，首先必须排除许多资源受限的设备加入联邦学习，这限制了训练数据集的潜在可用性，削弱了联邦学习的适用性。此外，现有的工作并没有具体说明当遇到意外的设备行为时如何反应，也没有分析这些行为对训练进度的(负面)影响。
在本文中，我们放宽了这些限制，并允许设备遵循更灵活的参与模式：

不完全性：设备可能在一轮中只提交部分完成的工作。
不活动：此外，设备可能不完成任何更新，或根本不响应协调器。
早退：在极端情况下，现有设备可能会在未完成所有训练回合前退出训练。
迟到：除现有设备外，新设备可能在训练开始后加入。

我们提高设备参与灵活性的方法包括以下组件，这些组件补充了现有的FedAvg算法，并处理灵活设备参与带来的挑战：

部分模型更新的去偏置
设备到达时快速重启
重新定义设备偏离的模型适用性

2 相关工作

（一些异步训练的工作）算法中的异步聚合可以自然地应用于随机非活动设备，但作者没有分析他们的算法的收敛性是如何受到设备不活动或不完整以及数据异构性的影响的。
（一些放宽参与设备要求的工作）这些工作并没有显示设备的变化如何影响训练的收敛性，也没有将用户数据的异质性纳入算法设计中。
等等相关工作的调研。

3 收敛性分析

3.1 算法描述

假设这里有 $N$ 个设备，我们为每个设备 $k$ 定义一个局部目标函数 $F_k(w)$ 。其中 $w$ 显然就是机器学习的权重参数， $F_k(w)$ 可以是设备 $k$ 上的所有点的平均经验损失。我们的全局目标是最小化以下的函数：

$F(w)=\sum_{k=1}^Np_kF_k(w)$

其中 $p^k=\frac{n_k}{n}$ ， $n_k$ 是设备 $k$ 所拥有的数据数量，且 $n=\sum_{k=1}^Nn_k$ 。令 $w^*$ 是函数 $F (w)$ 取最小值的权重参数。我们用 $F_k^*$ 表示 $F_k$ 的最小值。

为了描述设备 $k$ 的数据分布与其他设备的数据分布的不同程度，我们量化为 $\Gamma_k=F_k(w^*)-F_k^*$ ，同时令 $\Gamma=\sum_{k=1}^Np_k\Gamma_k$ .

考虑离散的时间步长 $t=0,1,\cdots$ .当 $t$ 是 $E$ 的倍数时，模型权重进行同步。假设最多有 $T$ 个回合，对于每一轮（例如在第 $\tau$ 轮），我们执行以下三个步骤：

同步：服务器广播最新权重 $w_{\tau E}^\mathcal{G}$ 给所有的客户端。每个客户端更新自己的权重参数： $w_{\tau E}^k=w_{\tau E}^\mathcal{G}$
本地训练：当 $i=0,\cdots,s_\tau^k-1$ 时，每个设备对自己的损失函数 $F_k$ 运行SGD算法： $w_{\tau E+i+1}^k=w_{\tau E+i}^k-\eta_\tau g_{\tau E+i}^k$ 这里的 $\eta_\tau$ 是随 $\tau$ 衰减的学习率， $0\le s_\tau^k\le E$ 表示在本轮中完成的本地更新的时间步数。 $g_t^k=\nabla F_k(w_t^k,\xi_t^k)$ 则是设备 $k$ 的随机梯度，其中 $\xi_t^k$ 代表了本地mini-batch的数据。我们同样定义 $\bar g_t^k=\nabla F_k(w_t^k)$ 表示设备 $k$ 的全batch梯度，因此 $\bar g_t^k=\mathbb E_{\xi_t^k}[g_t^k]$
聚合：协调器聚合梯度并生成下一个全局权重参数： $w_{(\tau+1) E}^\mathcal{G}=w_{\tau E}^\mathcal{G}+\sum_{k=1}^Np_\tau^k(w_{\tau E+s_{\tau}^k}-w_{\tau E}^\mathcal{G})\\w_{(\tau+1) E}^\mathcal{G}=w_{\tau E}^\mathcal{G}-\sum_{k=1}^Np_\tau^k\sum_{i=0}^{s_\tau^k}\eta_\tau g_{\tau E+i}^k$ 如果 $s_\tau^k=0$ （即是说，设备 $k$ 在第 $\tau$ 轮没有任何更新），那么我们就说设备 $k$ 在第 $\tau$ 轮是不活跃的。如果 $0<s_\tau^k<E$ ，那么我们说设备 $k$ 是不完整的。我们将每个 $s_\tau^k$ 视为遵循任意分布的随机变量，如果不同设备的 $s_\tau^k$ 具有不同的分布，那么他们是异质的，否则是同质的。同时，我们允许聚合的权重系数 $p_\tau^k$ 随时间步数 $\tau$ 变化。（一般来说 $p_\tau^k$ 是 $s_\tau^k$ 的函数）

作为一种特殊情况，传统的FedAvg假设所有的设备每轮都能完成所有的 $E$ 个时间步数的训练，所以 $s_\tau^k\equiv E$ 。且全设备参与的FedAvg所使用的聚合系数 $p_\tau^k\equiv p^k$ ，因此上一个公式的右侧可以写成： $w_{(\tau+1) E}^\mathcal{G}=\sum_{k=1}^Np_\tau^kw_{\tau E}^k$ 这是因为梯度聚合相当于直接对模型参数进行聚合。