联邦学习与标签分布歪斜通过Logits校准Federated Learning with Label Distribution Skew via Logits Calibration

文章研究了联邦学习(FedLearning)在处理标签分布倾斜的异构数据时遇到的问题,导致的模型精度下降。提出了FedLC方法,通过Logits校准来减少局部更新的偏差,尤其针对少数类和缺失类。实验表明,FedLC能提高全局模型的准确性,并且与其他FL方法结合能进一步提升性能。
摘要由CSDN通过智能技术生成

传统的联邦优化方法在处理异构数据时表现不佳(即精度降低),特别是对于高度倾斜的数据。在本文中,我们研究了FL中的标签分布倾斜,其中标签的分布在客户端之间是不同的。首先,我们从统计的角度研究标签分布的倾斜。我们从理论上和经验上证明了先前基于softmax交叉拟合的方法是不合适的,这可能导致局部模型严重过拟合少数类和缺失类。此外,我们在理论上引入了一个偏差界来测量局部更新后梯度的偏差。最后,我们提出了FedLC(联邦学习通过Logits校准),根据每个类的出现概率在softmax交叉熵之前校准Logits。FedLC通过添加成对标签裕度,将细粒度校准的交叉熵损失应用到本地更新中。

在联邦数据集和真实数据集上的大量实验表明,FedLC可以获得更准确的全局模型,并大大提高性能。此外,将其他FL方法集成到我们的方法中可以进一步提高全局模型的性能。

图1。在CIFAR10上测试不同标签倾斜设置下FedAvg的准确性。α和β越低,分布越偏斜(详见5.1节)。与IID设置相比,α = 2和β = 0.2时的准确度分别显著降低了26.07%和13.97%。

正如早期研究中提到的那样(kaiouz & McMahan, 2021;李等,2018;Zhao等人,2018),异构数据会降低FL的有效性。最近的研究提出了许多方法来解决非iid设置下精度下降的问题,如FedProx (Li et al, 2018), Scaffold (Karimireddy et al, 2020), FedNova (Wang et al, 2020b)和FedOpt (Reddi et al, 2021)。然而,以往的研究对客户间的数据划分策略非常严格,很难具有代表性和彻底性。为了更好地探索非iid数据的影响,(Li等人,2021b)开发了一个具有更全面的非iid设置的基准测试(例如,标签分布倾斜,特征分布倾斜)。如(Li等人,2021b)所示,这些现有的最先进的FL算法在所有非iid设置中都没有胜过其他算法。它激励研究人员为特定的非iid设置开发专门的算法,以进一步提高全局模型的性能。例如,FedBN (Li et al, 2021d)旨在解决FL中的特征分布倾斜问题。

本文主要研究FL中的标签分布偏态,标签分布偏态是最常见的一种挑战非iid设置,其中标签在不同客户端的分布不同(kaiouz & McMahan, 2021;Li等,2021b)。事实上,标签分布歪斜在现实应用中始终存在(al- shedivat et al, 2021;Wang等,2021a)。例如,熊猫只在中国和动物园里发现,一个人的脸可能只在世界上少数几个地方出现。遵循之前作品中的设定(凯鲁兹和麦克马汉,2021年;Li等人,2021b),我们模拟了实践中常用的两种不同的标签倾斜场景:基于数量的标签倾斜和基于分布的标签倾斜(详见5.1节)。

如图1所示,与IID设置相比,在高偏度数据2下,测试精度显著降低了26.07%和13.97%。我们认为这是合理的。在以往的研究中(Wang et al, 2020b),异构数据会导致客户端之间的目标函数不一致,导致全局模型收敛到远离全局最优的稳定点(Wang et al, 2020b)。此外,局部客户端上的倾斜数据导致偏倚模型过拟合少数类和缺失类,这加剧了客户端之间的客观不一致性(参见第3节的讨论)。因此,将这些严重偏倚的模型聚集在一起会导致全局模型离最优解越来越远。

以前的研究试图通过正则化局部目标来解决客户端之间的目标不一致问题(Acar等人,2021;李等,2018;2020 c;Zhang et al, 2020),而忽略了局部倾斜数据的影响。相反,我们直观的解决方案是解决客户端内部标签倾斜造成的负面影响,其目的是减少本地更新中的偏差,从而有利于全局模型。

这是因为全局模型的性能高度依赖于局部模型。因此,解决客户端内标签倾斜将产生更高质量的局部模型,然后为全局模型提供更好的性能。

我们的贡献总结如下:1)我们首先从统计的角度研究了标签分布的倾斜,并证明了之前基于softmax交叉熵的方法是不合适的,这可能会导致有偏差的局部模型。2)然后从理论上引入一个偏差界来测量局部更新后梯度的偏差。3)最后,我们提出了FedLC(联邦学习通过Logits校准),根据发生概率在softmax交叉熵之前校准每个类的logit。具体而言,FedLC通过添加成对标签裕度,将细粒度校准的交叉熵损失应用到局部更新中。通过强迫训练集中在缺失类和少数类的边缘,以达到最佳阈值,我们的方法鼓励这些代表性不足的阶层有更大的差距。4)我们从理论上和经验上都表明,FedLC会导致更准确的全局模型和大大提高的性能。此外,将解决客户端间目标不一致的其他方法与我们的方法集成可以进一步提高服务器模型的性能。

近年来,许多研究都专注于分析不平衡数据(He & Garcia, 2009;Liu等,2019;Zhang等,2021b)。现实世界的数据通常呈现出不平衡的分布,机器学习的有效性受到高度倾斜的数据的严重影响(Cao等人,2019;贾马尔等人,2020)。

重新采样(Chawla等人,2002)和重新加权(Cui等人,2019;贾马尔等人,2020年;Kim & Kim, 2020)是解决不平衡数据的传统方法。最近的工作使用重加权方法,通过为每个类别分配可变权重,使网络更加关注少数类别。此外,过度抽样少数类和欠抽样频繁类是以往研究中广泛讨论的两种重新抽样方法。新观点,如解耦训练(Kang等,2019)和延迟再平衡(Cao等,2019)计划也被证明是有效的。以前关于不平衡数据的大部分工作都集中在长尾分布上。然而,在联邦学习设置中,数据可能在许多方面不平衡(kaiouz & McMahan, 2021;Li et al, 2021b),如基于数量的标签失衡和基于分布的标签失衡在本文中。此外,标签分布倾斜包括长尾场景,但长尾方法不能处理类缺失的问题,这在FL中是非常常见的。

为了缓解标签分布倾斜的负面影响,(Wang et al, 2021b)提出了一种监测方案来检测FL中的类不平衡。然而,这种方法严重依赖于辅助数据,在现实世界的FL中并不实用,并存在潜在的隐私问题。此外,该方法还需要在中央服务器上增加一个监视器,这需要更多的计算量。请注意,FedRS (Li & Zhan, 2021)以类似的方式工作,这也试图减轻局部训练对标签倾斜数据造成的负面影响。但是,它只能解决在本地更新期间缺少类的问题。通常,在实际应用程序中,本地数据包含多数类和少数类,以及缺失类。与以前的方法相比,我们的方法从统计的角度系统地分析了标签分布倾斜的联邦学习问题。我们的方法同时考虑了多数类、少数类和缺失类,这样更实用。

受异构数据的影响,客户端的局部目标通常不相同,可能不会共享相同的最小化(Wang et al, 2021a)。因此,当从相同的全局模型更新局部模型时,客户端将漂移到局部目标的最小值。这种现象通常被称为客户端漂移(Charles & Koneˇcn´y, 2021;Karimireddy等人,2020)。正如之前的研究所证明的那样(Wang et al, 2020b;Zhao等人,2018),对这些模型进行客户端漂移的标准平均会导致收敛到一个稳定点,而不是原始目标函数的稳定点,而是一个不一致的目标函数的稳定点。

3. FL with Label Distribution Skew

也就是说,当训练数据分布有偏差时,联邦学习无法达到最优权重。一般来说,本地数据越偏,就越难聚合一个表现良好的全球模型此外,我们实证验证了FL中标签倾斜对5个客户端400轮沟通后的影响,并测试了局部更新前后每个类别的准确性。在局部更新之前,测试集中的所有局部模型都具有相同的测试精度(目前,这些局部模型相当于全局模型)。如图2所示,在局部数据训练后,大多数类的测试准确率甚至高于全局模型,而少数类的测试准确率要低得多,缺失类的准确率几乎为零。这表明,标签倾斜会导致有偏差的模型,严重过拟合到少数类和缺失类。因此,标签倾斜加剧了客观不一致的负面影响,并导致更不准确的全局模型。

4. Federated Learning via Logits Calibration

如前所述,本地更新由于标签分布倾斜而有偏差。在本节中,我们演示了标准软最大交叉熵不适用于高度倾斜数据的局部更新。为了克服这一问题,我们提出了一种细粒度校准的交叉熵损失来减少局部更新中的偏差。

如前所述,本地更新由于标签分布倾斜而有偏差。在本节中,我们演示了标准软最大交叉熵不适用于高度倾斜数据的局部更新。为了克服这一问题,我们提出了一种细粒度校准的交叉熵损失来减少局部更新中的偏差。

如前所述,本地更新由于标签分布倾斜而有偏差。在本节中,我们演示了标准软最大交叉熵不适用于高度倾斜数据的局部更新。为了克服这一问题,我们提出了一种细粒度校准的交叉熵损失来减少局部更新中的偏差。从统计学角度最小化误分类误差:Px,y(y̸= y), P (y | x)∝P (x | y)P (y)。

由于通常选择软最大交叉熵作为替代损失函数,因此将概率Py(x)∝efy(x)作为P (y | x)的估计。

然而,在本文中,我们关注的是FL中的标签分布倾斜,这意味着P (y)是倾斜的。也就是说,与多数类相比,少数类的出现概率要低得多,这意味着最小化错误分类误差P (x | y)P (y)不再合适(Menon et al, 2021)。为了解决这个问题,我们平均每个类的错误率(Menon et al, 2021),并尝试最小化测试误差,如下所示:

这样,结果就是P (x | y)的估计值,因此任意改变P (y)不会影响最优结果。

也就是说,当标签分布有偏差时,我们的目标是使校准误差P Cal最小化,如下所示:

其中γy是类在P (y)之前的估计。这个公式启发我们根据每个类出现的概率在softmax交叉熵之前校准logits 3。换句话说,我们应该鼓励少数阶层的对数减去一个相对较大的值。受式4的启发,我们在软最大交叉熵之前校准每个类的logit,然后修改的交叉熵损失可以表示为

其中∆(y,i) = log(γiγy)。为了更深入地了解∆(y,i),可以将其视为成对标签裕量,它表示y和i的分数之间的期望差距。有了这个优化目标,我们的目标是找到最优的成对标签裕量∆(y,i),并使用我们校准的损失像通常一样训练局部模型,即使标签分布倾斜。

与标准的softmax交叉熵相比,公式5对每个logit应用了一个成对的标签裕度∆(y,i)。调整每一类的∆(y,i)值是我们修正损失函数的关键因素。对于标签倾斜数据,受(Cao等人,2019)中有趣想法的激励,我们提供了以下最优的成对标签裕度,以最小化测试误差:

基于上述分析,我们提出了一个用于局部训练的细粒度损失函数,该函数基于强制的成对标签边缘来校准对数,以减少局部更新中的偏差:

这个损失函数在最小化分类错误的同时,迫使学习集中在少数类的边缘以达到最优结果。在局部训练中,LCal应该在类的边缘之间给出一个最优的权衡。

5. Experiments

5.1. Type of Label Distribution Skew

为了模拟标签分布歪斜,我们遵循(Li et al, 2021b)中的设置,并引入两种常用的标签歪斜设置:基于数量的标签歪斜和基于分布的标签歪斜。图4显示了不同类型的标签分布倾斜的示例

它首次在FedAvg中引入(McMahan et al, 2017),并在最近的许多研究中频繁使用(Li et al, 2020a;b;Li & Zhan, 2021;Shen等人,2020)。假设有n个训练样本分布在m个客户端中。首先,我们对数据进行标签排序,并将其划分为m·α集,每个集包含n个m·α样本。然后我们给每个客户分配α集。我们将这种方法称为Q(α),其中α控制标签倾斜的程度。注意,不同客户端的样本之间没有重叠。每个客户的训练数据只包含几个标签,这意味着有缺失的课程。

这种划分策略首次在(Y urochkin et al, 2019)中提出,这种设置也用于许多其他研究(Li et al, 2021c;Lin et al, 2020;王等,2020a;Zhang等,2021a)。每个客户端根据狄利克雷分布分配每个标签样本的一定比例。详细地,我们通过模拟pk∼Dir(β)对数据进行采样,并将k类样本的pk,j的一部分分配给客户端j

对于这种划分策略,我们用D(β)表示。这里β控制着偏度。注意,在使用这种划分策略时,每个客户端的训练数据可能有多数类、少数类,甚至一些缺失类,这在实际应用中更实用。

5.2. Experimental Setups

在这项研究中,我们对流行的图像分类基准数据集进行了一些实验:SVHN (Netzer等人,2011),CIFAR10 (Krizhevsky等人,2009),CIFAR100 (Krizhevsky等人,2009)和ImageNet (Deng等人,2009),以及LEAF (Caldas等人,2019)中提出的联邦数据集(Synthetic dataset和FEMNIST)。根据(Li et al, 2021e),我们生成大小为64*64*3的imagenet子集,它由12个标签组成,用于快速训练。为了更好地模拟Synthetic中的标签分布偏态,我们在实验中采用了基于数量的标签偏态和基于分布的标签偏态的混合方式。我们将其表示为合成(λ,µ),其中局部数据大小遵循幂律。请注意,λ指定了本地模型之间的差异程度,而µ表示了每个客户端的本地数据的倾斜程度。我们使用一个简单的逻辑模型(y = arg max(softmax(W x + b)))来生成数据样本。对于FEMNIST,我们使用LEAF中的默认设置(Caldas et al, 2019)。

Baselines and Implementation

我们的方法旨在提高标签分布倾斜情况下联邦学习的性能。因此,我们选择非iid问题的典型方法作为我们的基线,例如FedProx (Li等人,2018),Scaffold (Karimireddy等人,2020),FedNova (Wang等人,2020b)和FedOpt (Reddi等人,2021)作为我们的基线。为了公平的比较,我们还将我们的方法与FedRS (Li & Zhan, 2021)进行了比较,后者重点关注联邦学习中的标签倾斜问题。我们在Pytorch中实现了典型的联邦设置(McMahan et al, 2017),所有实验都是在8个特斯拉V100 gpu上进行的。

默认情况下,总共有20个客户端。我们使用了两个CNN架构作为初始模型,详细的模型架构见附录a。local mini-batch的大小为128。对于局部训练,每个客户端通过SGD优化器更新权重,学习率η = 0.01,没有权重衰减。我们用5个随机种子进行每个实验,并报告平均值和标准差。

5.3. Experiments on Federated Datasets

5.4. Experiments on Real-World Datasets

在SVHN, CIFAR10和CIFAR100上的结果在400次通信后测试所有结果。我们主要报道了这些算法在不同程度的标签倾斜下的评价。表1总结了不同类型的基于分布的标签倾斜的结果。显然,在所有场景下,我们的方法都明显比其他SOTA方法获得了更高的精度。随着数据异质性的增加(即更小的β),所有竞争方法都在挣扎,而我们的方法在高度倾斜的数据上显示出显著提高的准确性。以β = 0.05的CIFAR-10数据集为例,该方法的测试准确率为54.55%,比FedRS的测试准确率提高了10.16%。此外,我们还在表2中报告了这些方法对不同类型的基于数量的标签倾斜的性能,这可以进一步证明我们方法的优越性。

此外,我们比较了这些方法在imagenet子集数据集上的预测性能。我们选择ResNet-18作为默认网络。

我们在α ={2,4}和β ={0.1, 0.3}时,从基于数量的标签倾斜和基于分布的标签倾斜两方面比较了这些FL算法。如表3所示,我们必须在这里强调,即使在如此复杂的数据集上,我们的方法仍然表现得更好。在α = 2和β = 0.1的高度倾斜数据下,我们的方法可以达到62.43%和54.43%的平均精度,即比最佳基准fedr分别高出7.2%和6.01%。此外,我们在图5中绘制了测试精度曲线,这意味着我们的方法在高度倾斜的数据(例如,α = 0.1)上是相对稳定的

6. Conclusion

在这项工作中,我们提出了一种细粒度的校准损失,以改善标签分布倾斜的全局模型的性能。综合实验

结果表明,该方法能有效地减小局部更新中的偏差。我们希望我们的研究可以激励其他研究者探索客户端内标签倾斜和客户端间目标不一致之间的更多联系。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值