论文笔记 SCAFFOLD Stochastic Controlled Averaging for Federated Learning

抹茶红豆泥

已于 2022-11-26 21:01:21 修改

阅读量1.4k

点赞数 3

分类专栏：联邦学习文章标签：论文阅读人工智能

于 2022-11-14 11:29:32 首次发布

本文链接：https://blog.csdn.net/weixin_43235581/article/details/127844044

版权

论文题目：《SCAFFOLD Stochastic Controlled Averaging for Federated Learning》

论文地址：https://arxiv.org/pdf/1910.06378.pdf

Abstract

FedAvg ：简单、低通行成本 --> 联邦学习首选算法

But！数据异构（non-IID）时， FedAvg 会遭受“客户端漂移”，从而导致收敛不稳定和缓慢。

解决方案：新算法 SCAFFOLD，使用 控制变量（方差减少） 来校正其本地更新中的“客户端漂移”。

SCAFFOLD 的改进效果：

SCAFFOLD 需要的通信轮次明显减少
不受数据异构性或客户端采样的影响
可以利用客户端数据的相似性，从而产生更快的收敛（量化分布式优化中局部步骤有用性的第一个结果）

1. Introduction

联邦学习已成为现代大规模机器学习的一种重要范例。

联邦学习 VS 传统的集中式学习：

集中式学习：使用存储在中央服务器中的大型数据集进行模型训练
联邦学习：训练数据仍然分布在大量客户端上（这些客户端可能是电话、网络传感器、医院，或替代本地信息源），在本地训练模型，无需通过网络传输客户端数据，从而确保基本的隐私级别。

本文研究了用于联邦学习的随机优化算法。

联邦优化的关键挑战是：

处理服务器和客户端之间不可靠且相对较慢的网络连接。
在给定时间只有一小部分客户端可用于训练。
不同客户端上存在的数据存在很大的异质性（non-IId）。

FedAvg 解决通信瓶颈方法：在与服务器通信之前对可用客户端执行多个本地更新。尽管它在某些应用中取得了成功，但其在异构数据上的性能仍然是一个活跃的研究领域。

本文证明了这种异质性确实对 FedAvg 有很大的影响，它在每个客户端的更新中引入了 client-drift 客户端漂移，导致收敛缓慢、不稳定。

即使使用了全批次梯度，并且所有客户端都参与了整个训练，这种客户漂移仍然存在。

解决方案：提出了一种新的随机控制平均算法（SCAFFOLD），试图纠正这种客户端漂移。

直观地说，SCAFFOLD 估计了服务器模型的更新方向 c 和每个客户端的更新方向 ci 。差值 （c − ci） 是用于校正本地更新的客户端漂移的估计。该策略成功地克服了异质性，并在显著减少的通信成本中收敛。或者，可以将异质性视为在不同客户端的更新中引入“客户端差异”，然后 SCAFFOLD 执行 “客户端差异减少”。使用这个观点来表明 SCAFFOLD 相对不受客户端采样的影响。

client sampling：客户端采样。采样就是只选择一部分，客户端采样就是选择一部分客户端。

尽管适应异质性很重要，但利用客户端数据中的相似性同样重要，SCAFFOLD 就有这样的特性：客户端越相似，需要的通信越少。

贡献：

推导出 FedAvg 的收敛速度比之前已知的具有客户端采样和异构数据的凸函数和非凸函数的收敛速度更快。
给出了匹配下限，以证明：即使没有客户端采样，使用全批次梯度，FedAvg 的收敛速度也可能因为客户端漂移比 SGD 慢。
提出了一种新的随机控制平均算法（SCAFFOLD），用于校正这种客户端漂移。

证明了 SCAFFOLD 的收敛速度至少与 SGD 一样快，并且可以收敛于任意异构数据。
表明 SCAFFOLD 可以利用客户端之间的相似性，进一步减少所需的通信，首次证明了采取本地步骤优于大批量 SGD 的优势。
证明 SCAFFOLD 相对不受客户端采样的影响，从而获得方差降低率，使其特别适用于联邦学习。