【文献阅读】联邦学习中设备的灵活参与

这是张老师的二作文章,可得好好读。

摘要

  传统的联邦学习算法对设备的参与率有严格的要求,这限制了联邦学习的潜在覆盖范围。本文扩展了当前的学习范式,以包括可能变得不活跃、计算不完整更新以及在训练过程中离开或到达的设备。我们得出了分析结果,以说明当数据non-IID时,允许更灵活的设备参与影响学习收敛。
  然后,文章提出了一种新的联邦聚合方案,即使设备可能处于非活动状态或返回不完整的更新,该方案也会收敛。我们还研究了学习过程如何适应早离或晚到,并分析了它们对收敛的影响。


1 引言

  考虑到联邦学习通常需要数千个通信轮才能收敛,因此在实践中很难确保在整个训练过程中所有设备都可用。此外,通常有多个应用程序同时运行在用户设备上,竞争已经高度受限的硬件资源。因此,不能保证设备在每一轮训练中都能按预期完成指定的训练任务。
  虽然已经提出了许多方法来减轻单个设备的工作负载,如权重压缩和联邦dropout,但它们不能完全消除设备无法履行其训练职责的可能。因此,在大规模联邦学习中,首先必须排除许多资源受限的设备加入联邦学习,这限制了训练数据集的潜在可用性,削弱了联邦学习的适用性。此外,现有的工作并没有具体说明当遇到意外的设备行为时如何反应,也没有分析这些行为对训练进度的(负面)影响。
  在本文中,我们放宽了这些限制,并允许设备遵循更灵活的参与模式

  • 不完全性:设备可能在一轮中只提交部分完成的工作。
  • 不活动:此外,设备可能不完成任何更新,或根本不响应协调器。
  • 早退:在极端情况下,现有设备可能会在未完成所有训练回合前退出训练。
  • 迟到:除现有设备外,新设备可能在训练开始后加入。

  我们提高设备参与灵活性的方法包括以下组件,这些组件补充了现有的FedAvg算法,并处理灵活设备参与带来的挑战:

  • 部分模型更新的去偏置
  • 设备到达时快速重启
  • 重新定义设备偏离的模型适用性

2 相关工作

  (一些异步训练的工作)算法中的异步聚合可以自然地应用于随机非活动设备,但作者没有分析他们的算法的收敛性是如何受到设备不活动或不完整以及数据异构性的影响的。
  (一些放宽参与设备要求的工作)这些工作并没有显示设备的变化如何影响训练的收敛性,也没有将用户数据的异质性纳入算法设计中。
  等等相关工作的调研。


3 收敛性分析

3.1 算法描述

  假设这里有 N N N个设备,我们为每个设备 k k k定义一个局部目标函数 F k ( w ) F_k(w) Fk(w)。其中 w w w显然就是机器学习的权重参数, F k ( w ) F_k(w) Fk(w)可以是设备 k k k上的所有点的平均经验损失。我们的全局目标是最小化以下的函数:

F ( w ) = ∑ k = 1 N p k F k ( w ) F(w)=\sum_{k=1}^Np_kF_k(w) F(w)=k=1NpkFk(w)

  其中 p k = n k n p^k=\frac{n_k}{n} pk=nnk n k n_k nk是设备 k k k所拥有的数据数量,且 n = ∑ k = 1 N n k n=\sum_{k=1}^Nn_k n=k=1Nnk。令 w ∗ w^* w是函数 F ( w ) F(w) F(w)取最小值的权重参数。我们用 F k ∗ F_k^* Fk表示 F k F_k Fk的最小值。

  为了描述设备 k k k的数据分布与其他设备的数据分布的不同程度,我们量化为 Γ k = F k ( w ∗ ) − F k ∗ \Gamma_k=F_k(w^*)-F_k^* Γk=Fk(w)Fk,同时令 Γ = ∑ k = 1 N p k Γ k \Gamma=\sum_{k=1}^Np_k\Gamma_k Γ=k=1NpkΓk.

  考虑离散的时间步长 t = 0 , 1 , ⋯ t=0,1,\cdots t=0,1,.当 t t t E E E的倍数时,模型权重进行同步。假设最多有 T T T个回合,对于每一轮(例如在第 τ \tau τ轮),我们执行以下三个步骤:

  1. 同步:服务器广播最新权重 w τ E G w_{\tau E}^\mathcal{G} wτEG给所有的客户端。每个客户端更新自己的权重参数: w τ E k = w τ E G w_{\tau E}^k=w_{\tau E}^\mathcal{G} wτEk=wτEG
  2. 本地训练:当 i = 0 , ⋯   , s τ k − 1 i=0,\cdots,s_\tau^k-1 i=0,,sτk1时,每个设备对自己的损失函数 F k F_k Fk运行SGD算法: w τ E + i + 1 k = w τ E + i k − η τ g τ E + i k w_{\tau E+i+1}^k=w_{\tau E+i}^k-\eta_\tau g_{\tau E+i}^k wτE+i+1k=wτE+ikητgτE+ik这里的 η τ \eta_\tau ητ τ \tau τ衰减的学习率, 0 ≤ s τ k ≤ E 0\le s_\tau^k\le E 0sτkE表示在本轮中完成的本地更新的时间步数。 g t k = ∇ F k ( w t k , ξ t k ) g_t^k=\nabla F_k(w_t^k,\xi_t^k) gtk=Fk(wtk,ξtk)则是设备 k k k的随机梯度,其中 ξ t k \xi_t^k ξtk代表了本地mini-batch的数据。我们同样定义 g ˉ t k = ∇ F k ( w t k ) \bar g_t^k=\nabla F_k(w_t^k) gˉtk=Fk(wtk)表示设备 k k k的全batch梯度,因此 g ˉ t k = E ξ t k [ g t k ] \bar g_t^k=\mathbb E_{\xi_t^k}[g_t^k] gˉtk=Eξtk[gtk]
  3. 聚合:协调器聚合梯度并生成下一个全局权重参数: w ( τ + 1 ) E G = w τ E G + ∑ k = 1 N p τ k ( w τ E + s τ k − w τ E G ) w ( τ + 1 ) E G = w τ E G − ∑ k = 1 N p τ k ∑ i = 0 s τ k η τ g τ E + i k w_{(\tau+1) E}^\mathcal{G}=w_{\tau E}^\mathcal{G}+\sum_{k=1}^Np_\tau^k(w_{\tau E+s_{\tau}^k}-w_{\tau E}^\mathcal{G})\\w_{(\tau+1) E}^\mathcal{G}=w_{\tau E}^\mathcal{G}-\sum_{k=1}^Np_\tau^k\sum_{i=0}^{s_\tau^k}\eta_\tau g_{\tau E+i}^k w(τ+1)EG=wτEG+k=1Npτk(wτE+sτkwτEG)w(τ+1)EG=wτEGk=1Npτki=0sτkητgτE+ik如果 s τ k = 0 s_\tau^k=0 sτk=0(即是说,设备 k k k在第 τ \tau τ轮没有任何更新),那么我们就说设备 k k k在第 τ \tau τ轮是不活跃的。如果 0 < s τ k < E 0<s_\tau^k<E 0<sτk<E,那么我们说设备 k k k不完整的。我们将每个 s τ k s_\tau^k sτk视为遵循任意分布的随机变量,如果不同设备的 s τ k s_\tau^k sτk具有不同的分布,那么他们是异质的,否则是同质的。同时,我们允许聚合的权重系数 p τ k p_\tau^k pτk随时间步数 τ \tau τ变化。(一般来说 p τ k p_\tau^k pτk s τ k s_\tau^k sτk的函数 )

作为一种特殊情况,传统的FedAvg假设所有的设备每轮都能完成所有的 E E E个时间步数的训练,所以 s τ k ≡ E s_\tau^k\equiv E sτkE。且全设备参与的FedAvg所使用的聚合系数 p τ k ≡ p k p_\tau^k\equiv p^k pτkpk,因此上一个公式的右侧可以写成: w ( τ + 1 ) E G = ∑ k = 1 N p τ k w τ E k w_{(\tau+1) E}^\mathcal{G}=\sum_{k=1}^Np_\tau^kw_{\tau E}^k w(τ+1)EG=k=1NpτkwτEk这是因为梯度聚合相当于直接对模型参数进行聚合

3.2 一般收敛界

  这部分通过各类假设(包括Lipschitz梯度等等)证明了以下的收敛界:
在这里插入图片描述

3.3 全局目标转移

  这一章描述了由于接受了特定设备的权重后,全局的损失函数会向这个设备的方向偏移的现象。文章有以下定理:
在这里插入图片描述
  之后文章推导了在全局目标转移的情况下,新的收敛界。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值