【文献阅读】Federated Accelerated Stochastic Gradient Descent

学渣渣渣渣渣

已于 2022-10-25 19:57:26 修改

阅读量1.7w

点赞数 1

分类专栏：论文阅读文章标签：算法机器学习人工智能

于 2021-03-02 20:47:31 首次发布

本文链接：https://blog.csdn.net/weixin_42468475/article/details/114293756

版权

论文阅读专栏收录该内容

35 篇文章 10 订阅

订阅专栏

文章目录

1 Federated Accelerated Stochastic Gradient Descent （FedAc）
2 challenge
3 how to do
4 baseline

1 Federated Accelerated Stochastic Gradient Descent （FedAc）

本文从凸函数的性质出发，将联邦学习的收敛问题转化成凸函数的最小优化问题，提出了一种联邦学习框架下的首个实现加速随机梯度下降（SGD）的算法（FedAc），其有效地改善了联邦学习在不同凸函数（convex functions）下的收敛速度、通信开销（通信消耗指本地模型多少轮与中心服务器同步一次，同步越频繁，消耗时间就越多，会降低框架的通信效率。）；并在不同随机分布的assumption（smoothness, bounded variance, and strong convexity）下对算法的优化效果（收敛性和稳定性）作了评估。

分布式随机优化的本质是使：
在这里插入图片描述
F是一个凸函数，我们的目标是利用合适的算法更新w，使 F(w) 尽快达到最小。这个优化问题也被称为stochastic approximation (SA) problem

2 challenge

disaccord of acceleration and stability：加速算法会对影响收敛的稳定性，尤其使在分布式场景下，用于加速的momentum会放大算法的不稳定。

例如，当原先的 Nesterov accelerated gradient descent algorithm 用于联邦学习时，会因为每个本地模型的初始值不同导致的迭代后他们地不同呈指数增加（即使对平滑和强凸函数）。所以 (Nesterov, 2018) 这种方法不可行。光滑函数(smooth function)是指在其定义域内无穷阶数连续可导的函数。

对于稳定性研究的认识，从稳定性可以确立泛化边界——》证明加速梯度下降算法（AGD）在二次目标（quadratic objective）函数情况下的稳定性边界。但是至今没有针对凸函数稳定性的研究，本文证明了AGD算法在上述情况可能会失效，为此文本的技术权衡并减小了初始值带来的不稳定性。

在加速方面，随着参与者数量增多，抑或是同步间隔的增加（长时间的不同步导致各个local模型收敛方向不一致），都会降低收敛的速度，增加联邦学习框架并行计算的时间。

3 how to do

FedAc是基于Ghadimi提出的SGD加速算法的改进，使其可以并行计算，用于分布式场景。FedAc parallelizes a generalized version of Accelerated SGD (Ghadimi and Lan, 2012), while we carefully balance the acceleration-stability tradeoff to accommodate distributed settings.

FedAc算法如下，原文还对各种情况做了讨论，例如在Assumption1下提出了两种可选择的参数方案，分别侧重于条件数依赖性（ dependency on condition number）和通信效率（communication efficiency）。算法容易看懂，但是参数值得确定的推导惨不忍睹，细节见原文~

在这里插入图片描述

$w_{0}^{ag,m}$ 和 $w_{0}^{md,m}$ 是中间计算量，最终上传更新的参数还是 $w_{0}^{m}$

参数的计算见：

在这里插入图片描述

这两种参数的选择方案对应的收敛情况如下：

在这里插入图片描述

我们可以这样理解以上公式：在公式中，自变量是T，代表联邦学习运行的时间（迭代轮数），随着T的增加，不等式右边的值会变小（T做分母T越大分式值越小），因此 $\mathbb{E}[F(\bar{w}_{T}^{ag}) - F^{\ast}]$ 也会变小，当不等式右边趋近于0，我们可以认为 $F(\bar{w}_{T}^{ag})$ 和 $F^{\ast}$ 非常接近，即框架达到收敛。