Exploiting Shared Representations for Personalized Federated Learning利用共享表示实现个性化联邦学习

文章提出了FedRep,一种在联邦学习框架下处理数据异构性的新方法。FedRep学习全局低维表示并允许每个客户端学习个性化的局部头部,以适应不同客户端间的统计差异。这种方法在理论上展示了线性收敛速度,并在实验中表现出对不同异构性和新客户端泛化的优越性,对比了其他联邦学习算法如FedAvg和Fed-MTL等。
摘要由CSDN通过智能技术生成

Abstract

深度神经网络已经展示了从图像和文本等数据中提取通用特征表示的能力,这些数据对各种学习任务都很有用。然而,表示学习的成果还没有在联邦设置中完全实现。尽管联邦设置中的数据通常是非i.i.d的。在客户端之间,集中式深度学习的成功表明,数据通常共享一个全局特征表示,而客户端或任务之间的统计异质性集中在标签上。基于这种直觉,我们提出了一种新的联邦学习框架和算法,用于学习跨客户端共享数据表示和每个客户端的唯一本地头。

我们的算法利用跨客户端的分布式计算能力,在每次更新表示时对低维局部参数执行多次局部更新。我们证明了该方法在线性设置下对接近最优样本复杂度的ground-truth表示具有线性收敛性,证明该方法可以有效地降低每个客户端的问题维数。此外,我们提供了大量的实验结果,证明了我们的方法在异构环境中比其他个性化联邦学习方法的改进。

1. Introduction

我们通过利用客户之间的共同代表来解决这个问题。具体来说,我们将数据异构联邦学习问题视为n个并行学习任务,它们可能具有一些共同的结构,我们的目标是学习和利用这种共同的表示来提高每个客户端模型的质量。事实上,这与我们对集中式学习的理解是一致的,在集中式学习中,我们已经成功地通过在流行的机器学习任务(例如,图像分类,下一个单词预测)中利用通用(低维)表示同时训练多个任务。

主要贡献。本文介绍了一种新型的数据异构设置联邦学习框架和相关算法。接下来,我们将介绍我们的主要贡献。

(i) FedRep算法。联邦表示学习利用跨客户端存储的全部数据量,使用基于梯度的更新学习全局低维表示。此外,它使每个客户端能够计算一个个性化的低维分类器,我们称之为客户端本地头,它负责每个客户端本地数据的唯一标记。

收敛速度。我们表明,在每个客户端都旨在用两层线性神经网络解决线性回归问题的情况下,FedRep以指数级快的速度收敛到最优表示,样本复杂度接近最优。我们的分析进一步表明,每个客户只需要O(κ2k3(log(n) + κ2kd n)个样本,其中n是客户数量,d是数据的维数,k是表示维数,κ是真实客户表示矩阵的条件数。

iii)实证结果。通过合成数据集和真实数据集(CIFAR10, CIFAR100, FEMNIST, Sent140)的组合,我们展示了FedRep在以下方面的好处:(a)利用许多本地更新,(b)对不同水平的异质性的稳稳性,以及(c)对新客户端的泛化。我们考虑了几个重要的基线,包括FedAvg (McMahan等人,2017)、Fed-MTL (Smith等人,2017)、LG-FedAvg (Liang等人,2020)和Per-FedAvg (Fallah等人,2020)。我们的实验表明,FedRep在共享全局表示的异构设置中优于这些基线。

接下来,我们列出FedRep优于标准联邦学习(学习单一模型)的优点。

(一)更多本地更新。通过减少问题维度,每个客户端可以在每一轮通信中进行多次本地更新,这有利于学习自己的个人头脑。这与标准联邦学习不同,在标准联邦学习中,异构设置中的多个本地更新都会移动每个更新。

客户端远离最佳平均表示,从而损害性能。

(二)合作成果。表示d为数据维,n为客户端数量。从我们的样本复杂度边界来看,对于FedRep,每个客户端的样本复杂度扩展为Θ(log(n) + d/n)。另一方面,局部学习(没有任何协作)的样本复杂度为Θ(d)。因此,如果1 ?n ?eΘ(d)(详见第4.2节),我们期望通过联邦进行协作的好处。当d很大(在实践中很典型)时,eΘ(d)会呈指数级增大,federation会帮助每个客户机。据我们所知,这是异构联邦学习的第一个基于样本复杂性的结果,它展示了合作的好处。

(三)新客户推广。对于一个新的客户端,由于有现成的表示,客户端只需要学习一个k维的低维表示的头。因此,其样本复杂度的规模仅为Θ(k log(1/?))。

相关的工作。最近的各种工作研究了联邦学习中的个性化,例如使用局部微调,局部模型和全局模型的相加混合物和多任务学习。在所有这些方法中,每个客户端的子问题仍然是全维的——没有学习降维局部参数集的概念。最近,Liang等人(2020)也提出了一种用于联邦学习的表示学习方法,但他们的方法试图学习许多局部表示和一个全局头,而不是一个全局表示和许多局部头。早些时候,Arivazhagan等人(2019)提出了一种学习局部头部和全局网络主体的算法,但他们的局部过程联合更新头部和主体(使用相同的更新次数),并且他们没有为他们提出的方法提供任何理论证明。与此同时,另一项工作研究了异构环境下的联邦学习,这些工作中基于优化的见解可用于补充我们的公式和算法。

3. FedRep Algorithm

FedRep解决问题(2)通过在客户端上分布计算。服务器和客户端目标是一起学习全局表示的参数,而第i个客户端目标是在本地学习其唯一的本地头(见图2)。为了做到这一点,FedRep在每一轮通信中轮流更新客户端和服务器更新。

客户端更新。在每一轮中,选择常数分数r∈(0,1)的客户端执行客户端更新。在客户端更新中,客户端i进行基于τ局部梯度的更新,以在给定服务器通信的当前全局表示φt的情况下求解其最佳头部。即,当s = 1时,……, τ,客户端I更新其头部如下:

服务器更新。一旦本地更新了头部hi结束,客户端通过对当前表示(即计算)进行基于梯度的本地更新来参与服务器更新

然后,它向服务器发送φt+1 i,服务器对本地更新取平均值,以计算下一个表示φt+1。整个过程在算法1中概述。

5. Experiments

我们在实验中重点关注三点:(i) FedRep中局部头的许多局部更新的影响(ii) FedRep学习的全局表示的质量(iii) FedRep对广泛数据集的适用性。

5.1. Synthetic Data

找到最佳头部的好处。我们首先证明了FedRep的收敛性随着客户端数量n的增加而提高,使其高度适用于联邦设置。此外,我们给出的证据表明,这种改进可以通过FedRep中的最小化步骤得到增强,因为用1步和10步梯度下降(分别为GD-GD和10GD-GD)取代FedRep中的最小化步骤的方法不能适当地缩放n。

在图3中,我们绘制了FedRep、GD-GD和10GD-GD在四个不同的n值和固定的m、d、k和r下的收敛轨迹。正如我们在图3中观察到的,通过增加节点n的数量,客户端更快地收敛到真实表示。此外,运行更多的本地更新来查找本地头部加快了FedRep的收敛速度。特别是,FedRep在每一轮都能准确地找到最优的局部头,与GD-GD和10GD-GD分别只运行1和10个本地更新来学习头部。

泛化到新客户端。接下来,我们评估FedRep学习的表示在降低没有参加训练的新客户的样本复杂性方面的有效性。我们首先在n = 100个客户端的固定集合上训练FedRep和FedAvg,如图1所示,其中(d, k) =(20,2)。新的客户端可以访问mnew标记的本地样本。它将使用从训练客户端学习到的表示法B∗∈Rd×k,并使用该表示法及其局部训练样本学习一个个性化的头部。

对于FedRep和FedAvg,我们在给定这些样本和训练期间学习的表示的情况下求解最佳头部。我们将结果模型在新客户端测试数据上的MSE与仅使用来自新客户端(仅本地)的mnew标记样本训练的模型的MSE进行比较(见图4)。FedAvg的大误差表明它没有学习基本真理表示。同时,FedRep学习到的表示允许为新客户端找到一个精确的模型,只要mnew≥k,这大大提高了Local Only (mnew = Ω(d))的复杂性。

5.2. Real Data

接下来,我们将研究这些见解是否适用于非线性模型和真实数据集。

数据集和模型。我们使用四个真实数据集:CIFAR10和CIFAR100 (Krizhevsky等人,2009),FEMNIST (Caldas等人,2018;Cohen等人,2017)和Sent140 (Caldas等人,2018)。前三个是图像数据集,最后一个是文本数据集,其目标是将推文的情绪分类为积极或消极。我们通过为每个客户端分配不同数量的类S来控制CIFAR10和CIFAR100的异构性,这些类分别来自10个和100个总共的类。每个客户端被分配相同数量的训练样本,即50,000 /n。

对于FEMNIST,我们将数据集限制为10个手写字母,并根据对数正态分布将样本分配给客户(Li et al, 2019)。我们考虑n = 150个客户端,平均每个客户端有148个样本。

对于Sent140,我们使用推文对其作者的自然分配,并使用n = 183个客户端,每个客户端平均72个样本。我们对CIFAR数据集使用5层cnn,对FEMNIST使用2层MLP,对Sent140使用RNN(详见附录a)。

基线。我们将各种个性化联邦学习技术以及用于学习单个全局模型的方法及其经过微调的类似物进行比较。在个性化方法中,FedPer (Arivazhagan等人,2019)与我们的方法最相似,因为它也学习全局表示和个性化头部,但对两组参数同时进行局部更新,因此对每个局部回合的头部和表示进行相同数量的局部更新。Fed-MTL (Smith等人,2017)学习局部模型和正则化器来编码客户端之间的关系,PerFedAvg (Fallah等人,2020)利用元学习来学习在每个任务适应后表现良好的单个模型,LG-FedAvg (Liang等人,2020)学习局部表示和全局头。APFL (Deng et al, 2020)在局部模型和全局模型之间进行插值,L2GD (Hanzely & Richt´arik, 2020)和Ditto (Li et al, 2020)学习通过全局正则化鼓励彼此接近的局部模型。

对于全局FL方法,我们考虑FedAvg (McMahan等人,2017)、SCAFFOLD (Karimireddy等人,2020)和FedProx (Li等人,2018)。为了获得微调结果,我们首先在整个训练期间训练全局模型,然后每个客户端在计算最终测试精度之前,只对其本地训练数据的头部进行10个SGD epoch的微调。

实现。在每个实验中,我们每一轮对所有客户进行抽样,比例为r = 0.1。我们随机初始化所有模型,并为CIFAR数据集训练T = 100个通信轮,为Sent140训练T = 50,为FEMNIST训练T = 200。在每种情况下,FedRep在每次本地更新(取决于数据集)中执行10个SGD局部epoch来训练局部头部,然后执行1或5个epoch用于表示。所有其他方法都使用与FedRep相同数量的本地epoch来更新表示。准确度是通过计算所有用户在最后10轮通信中的平均本地准确度来计算的,微调方法除外。这些精度是在为每个客户端对经过充分训练的全局模型的头部进行十次局部训练后计算出来的。

更多本地更新的好处。正如在第1节中提到的,我们的公式的一个关键优势是它允许客户端运行许多本地更新,而不会导致偏离他是全局最优解。我们在图5中展示了一个这样的例子。这里有n = 100个客户端,每个客户端有S = 2类图像。对于FedAvg,我们观察到运行更多的本地更新并不一定能提高性能。相比之下,FedRep的性能是单调不随E递减的,也就是说,FedRep需要更少的E调优,并且不会受到更多局部计算的影响。

对不同程度的异质性、客户端数量和每个客户端样本数量的鲁棒性。我们在表1中显示了各种设置下所有算法的平均局部测试误差。在所有情况下,FedRep要么是性能最好的方法,要么非常接近于性能最好的方法。回想一下,对于CIFAR数据集,每个客户端的训练样本数量等于50,000 /n,因此拥有1000个用户的列每个客户端的样本数量最小。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值