Local Learning Matters: Rethinking Data Heterogeneity in Federated Learning局部学习很重要！

最新推荐文章于 2024-06-22 20:40:50 发布

tiger00O

最新推荐文章于 2024-06-22 20:40:50 发布

阅读量556

点赞数 1

分类专栏：联邦学习文章标签：深度学习 Powered by 金山文档

本文链接：https://blog.csdn.net/tiger00O/article/details/129347984

版权

联邦学习专栏收录该内容

14 篇文章 9 订阅

订阅专栏

联邦学习(FL)是一种很有前途的策略，用于执行隐私保护，分布式学习与客户端网络(即边缘设备)。然而，客户端之间的数据分布本质上通常是非iid的，这使得高效优化变得困难。为了缓解这个问题，许多FL算法通过引入各种近端项(其中一些会导致相当大的计算和/或内存开销)来抑制相对于全局模型的本地更新，从而侧重于减轻跨客户端数据异构的影响。相反，我们考虑重新思考FL中数据异质性的解决方案，重点是局部学习的普遍性，而不是近端限制。为此，我们首先提出了一个由二阶指标告知的系统研究，以更好地理解算法在FL中的有效性。

有趣的是，我们发现标准的正则化方法在减轻数据异质性影响方面表现惊人。基于我们的研究结果，我们进一步提出了一种简单有效的方法FedAlign，以克服数据异质性和以往方法的缺陷。

动机。在集中式训练范式中，网络泛化能力已经得到了很好的研究，以对抗过拟合。即使在训练和测试数据来自相似分布的标准设置中，如果不采取预防措施，模型仍然会过度拟合训练数据。当训练数据和测试数据分布不同时，这种效应会进一步增强。引入了各种正则化技术，以在训练过程中加强学习的一般性并保持适当的测试性能。同样，在FL中对每个设备的局部训练数据进行过拟合也不利于整体网络性能，因为客户端漂移效应会在局部模型之间产生冲突的目标。因此，在存在数据异质性的情况下，关注提高模型的通用性应该是首要考虑的问题。在培训过程中提高局部学习的通用性必然会使客户的目标更接近总体的全球目标。然而，尽管这是一种直观的动机，但这一观点却被当前大量的外语文献所忽视。

因此，在本文中，我们根据局部学习的普遍性而不是近端限制，提出了重新思考数据异质性的方法。具体来说，我们仔细分析了各种数据和结构正则化方法在减少客户漂移和提高FL性能方面的有效性(第3节)。利用二阶信息和来自分布外一般性文献的见解[19,21]，我们确定了成功优化FL的理论指标，并评估各种FL设置以进行经验验证。

尽管一些正则化方法在减少客户端漂移方面表现良好，但仍然会产生大量的资源开销来实现最佳性能(参见第4节)。因此，我们提出了FedAlign，这是一种基于蒸馏的正则化方法，在保持出色的资源效率的同时促进局部学习的一般性。

具体来说，FedAlign专注于正则化网络中最后一个块的Lipschitz常数。通过只关注最后一个块，我们有效地正则化了网络中最容易过拟合的部分，并将额外的资源需求保持在最低限度。因此，与其他最先进的方法相比，FedAlign在各种FL设置的多个数据集上实现了最先进的精度，同时需要更少的计算和内存开销。

贡献：

•我们从一个独特的角度解决了最棘手的FL挑战之一(即由数据异构性引起的客户端漂移)，这比以往的任何工作都要独特。我们不关注重新参数化技巧以保持与中心模型的接近性，也不关注调整聚合方案以减轻非iid数据分布的影响。相反，我们建议从基本的机器学习训练原则来重新思考这个问题。通过这种方式，我们分析了标准正则化方法在FL上的性能及其对数据异质性的有效性。

•我们不仅实证地分析了FL中正则化方法的性能，我们还建议进行更深入的研究。具体来说，我们用学习普遍性的理论指标来告知我们的分析，以深入了解哪些方法是最好的以及为什么最好。我们发现Hessian特征值/迹测量和跨客户端的Hessian匹配是最优FL方法的有意义的指标。此外，我们在不同的FL环境下进行了彻底的消融研究，以了解不同方法的经验效应。我们的目标是为FL社区提供这一宝贵的知识，以激发新的，富有成效的研究方向。

•通过我们的分析和检查之前方法的缺陷，我们提出FedAlign，它在保持内存和计算效率的同时实现了具有竞争力的最先进的准确性。

2. Related Work

最近的工作试图通过两个不同的重点来改进这一基线:改进客户机上的本地培训，或改进服务器上的全局聚合过程。在这项工作中，我们专注于本地培训和客户漂移，因此我们将首先讨论这种性质的方法。为了减轻数据异构的复杂性，一种常用的方法是在局部训练损失中引入近端项。例如，FedProx[23]添加了近端项µ2 kw−wtk2，其中µ是一个超参数，w是当前局部模型权重，wt是来自第t轮的全局模型权重。这种重新参数化的目标是通过限制局部更新变得极端的影响来最小化客户端漂移。最近，MOON[15]提出了一个类似的由对比学习启发的重新参数化思想。具体地说，作者建立了一个局部模型的收缩损失比较代表

三个模型的再现:全局模型、当前局部模型和上一轮局部模型的副本。这个术语的目标类似于FedProx，但在特征表示空间;将目前的本地代表推向全球代表。与此同时，当前的局部模型正被推离上一轮的局部模型副本的表示。其他方法[1,10]遵循类似的思想;他们的目标是限制本地更新的影响，或者用修正期限转移更新。

然而，这些方法有两个主要的缺点。首先，通过抑制漂移，它们也固有地限制了局部收敛潜力。这样，每一轮交流就不会收集到那么多的新信息。其次，这些方法中有许多会导致大量内存和/或计算开销。例如，由于MOON[15]的模型构造损失，在训练过程中需要在内存中同时存储三个全尺寸模型，并在每次迭代中向前遍历每个模型。这需要大量额外的资源，而这些资源在FL客户端设置中通常已经很稀缺了。

其他工作集中在系统的服务器端，旨在改进聚合算法。[34]提出了一种贝叶斯非参数方法，用于在聚集时匹配局部模型上的神经元，而不是天真地平均。然而，所提出的框架在全连接网络中的应用是有限的，因此[27]将其扩展到cnn和lstm。FedNova[28]提供了一种标准化的平均方法，作为简单FedAvg更新的替代方案。由于我们注重的是当地的培训，所以这些工作与我们的工作是正交的。一些方法[18,25,32]提出了受数据增强方法Mixup启发的联邦方案，在本地数据上使用类似的平均技术，并与全局模型或其他设备共享增强的数据。然而，即使数据在分发之前以某种方式进行了扩充，从客户端共享私有数据对于隐私保护来说并不理想。此外，共享额外的数据加重了系统的通信负担，这是FL的主要关注点。

学习普遍性。在传统的集中训练中，各种形式的正则化是提高通用性的常用做法。数据级正则化，包括基本数据增强和其他更高级的技术[33,36]，是非常有效的。其他方法通过结构修改引入一定程度的噪声到训练过程中;例如，随机或故意修改网络连通性[3,6,26]。[29]提出了一种混合方法，通过使用子网络表示、知识蒸馏和输入转换，将自引导梯度扰动引入训练过程。作为这项工作的一部分，我们在许多FL设置和使用各种正则化方法。

3. Empirical Study

我们希望从简单而独特的局部学习一般性角度来评估FL的数据异质性挑战。具体来说，我们首先研究了标准正则化技术作为这一FL挑战的解决方案的有效性，与最先进的方法进行比较。

3.1. Preliminaries

我们使用了三种FL算法，分别是FedAvg, FedProx和MOON。这些作品既代表了经典的基线，也代表了当前最先进的技术，并在第2节中进行了描述。为了进行比较，我们采用了三种最先进的正则化方法:Mixup [36]， Stochastic Depth[6]和GradAug[29]。具体来说，这些正则化方法应用于标准FedAvg设置中的局部优化，其操作如下所述。Mixup是一种数据级增强技术，它在两个样本之间执行线性插值。

随机深度(Stochastic depth)是一种基于结构的方法，在训练过程中丢弃层，从而创建一个具有不同有效长度的隐式网络集合。GradAug是最近的一种正则化方法，它在基于蒸馏的框架中结合了数据级和结构技术。其训练损失定义为

3.2. Experimental Setup

为了开始我们的分析，我们在一个常见的FL设置中用几种正则化方法测试了几种最先进的FL算法的准确性。我们使用ciremote -100[12](一个包含100个类别的5万张训练图像的图像识别数据集)进行实验，并使用ResNet56[5](在FedML[4]中使用PyTorch[20]实现)作为模型。与文献[1,4,15]中常见的一样，使用狄利克雷分布(Dir(α))将数据集划分为K个不平衡子集，默认值为α = 0.5。使用这种数据分区方案，客户端可能没有一个或多个类的样本。

因此，许多客户端只能看到全部类实例的一部分。这使得场景更加真实和具有挑战性。对于所有的方法和实验，我们使用一个动量SGD优化器，固定学习率为0.01。在我们的基本设置中，培训进行了25轮，每轮有16个客户和20个本地epoch。在随后的结果中对该设置的任何修改都将清楚地说明。我们比较了前面描述的FL算法和正则化方法。FedProx, MOON和GradAug都有一个超参数µ来平衡它们的额外损耗项。我们报告了所有方法的最佳µ，FedProx、MOON和GradAug分别为0.0001、1.0和1.75。对于Mixup和Stochastic Depth， γ和ρL分别设为0.1和0.9。对于GradAug，子网络数n = 2， ωb = 0.8，变换T为随机分辨率缩放。将一个两层投影层添加到MOON模型中，并按照原始论文中指定的默认温度参数τ = 0.5。基本数据扩充(随机裁剪、水平翻转和归一化)在所有方法中保持一致。

3.3. 准确率结果如表1所示。在目前最先进的FL算法中(表1的上半部分)，MOON达到了最好的精度。这是意料之中的，因为MOON是FL方法中最复杂的，需要使用三个单独的模型进行对比学习技术。然而，当我们与标准的正则化技术(表1中较低部分的Mixup、StochDepth和GradAug)进行比较时，我们看到它们的性能相似或明显更好。GradAug尤其突出，其精度比MOON高~ 2%，比FedAvg和FedProx高~ 4%。

StochDepth也达到了与MOON相似的精度。此外，这些正则化方法带来了与MOON相同或更好的性能，具有更少的内存和/或计算需求。我们发现正则化方法在这种情况下似乎有优势;然而，我们希望进一步调查为什么会出现这种情况。接下来，我们将在章节3.4中给出基于二阶信息的深入分析。

3.4. 基于二阶信息的算法分析

最近在神经结构搜索领域[2,35]以及在网络泛化领域[8,11,31]的工作已经注意到顶部Hessian特征值(λmax)和Hessian迹(HT)作为性能预测器和网络泛化指标的重要性。具有较低的λmax和HT通常产生的网络对网络权重的小扰动不太敏感。这对平滑训练期间的损失空间，达到更平坦的最小值和简化收敛具有有益的效果。这些属性在联邦学习中特别有利，因为极端的非iid分布和有限的本地数据通常使收敛变得困难。

在这些见解的激励下，我们分析了使用每种FL方案训练的全局模型的顶部Hessian特征值和Hessian迹，以深入了解每种方法的有效性。正如[30]中所描述的，顶部黑森特征值可以用幂迭代[31]方法逼近，使用简单的内积和标准反向传播。此外，[30]还利用Hutchinson方法[7]找到了迹的类似近似。我们使用这些方法对顶部Hessian特征值和最终平均模型的轨迹进行分析。

在表1中，我们包括了Hessian分析的结果。首先，我们发现FedAvg具有最高的λmax和HT。FedProx和MOON的结果都较低，说明泛化程度有所提高。然而，有趣的是，我们发现正则化方法在降低λmax和HT方面是最有效的，其中GradAug在这两个值上都是最低的。我们可以在图1中看到λmax和HT减少的效果，在图中可以看到，与FedAvg相比，GradAug能够大大平滑损失景观。

3.5. Ablation Study under Various FL Settings

数据的异质性。联邦系统可以使用许多不同的设置和不同的环境进行部署。我们对各种FL设置进行进一步分析，以确保我们发现的普遍性。首先，我们研究了客户端数据分布中不同程度的异构的影响。结果如表2所示。我们报告了三次运行的平均准确度±标准差。所有其他设置从章节3.2中维护;只有数据分布Dir(α)是变化的。α值越低，分布越不均匀。

随着数据异构程度的降低，客户端漂移的影响应该变得不那么显著。因此，我们期望每种方法的精度都将提高，在均匀设置中具有峰值性能。所有的正则化方法，以及FedAvg，都按预期执行，并在数据分布的不同程度上发现一致的改进。然而，我们看到FedProx和MOON的准确性提高随着数据趋于同质性而放缓，在纯同质设置(表2中的“同质”)下的准确性仍然相当低。在他们试图减轻客户端漂移和保持本地更新接近全局模型的过程中，他们似乎也阻碍了他们完全学习少量异类甚至同质数据的能力。这对于可部署的FL系统来说并不理想，因为异构的程度无法提前知道。此外，即使在最异构的情况下，结构正则化方法的性能优于标准的FL算法。例如，在α = 0.1时，StochDepth比MOON提高了1.7%，同时在更均匀的情况下也有提高。在所有设置中，GradAug表现最好。

本地培训周期数。充分处理数据异构性的主要目的是允许每轮在客户端上进行更高效的训练，从而减少收敛的时间和所需的通信成本。因此，为了检查每种方法的训练效率，我们在表3中使用每个回合(E)分配的不同局部训练周期来检查它们的准确性。

客户端数量。在真实的FL设置中，参与客户端的数量可以有很大差异。此外，由于连接原因或中央系统的其他容量限制，每轮只有一部分客户端可能被采样。因此，FL方法能否在这种条件下收敛是至关重要的。我们在表4中研究了客户数量和客户抽样的影响。

C = 64 × 0.25表示系统中总共有64个客户端，但每轮只采样一部分(0.25)。

表4中给出的其余结果对每轮所有K个客户进行抽样。C = 64 × 0.25(100)运行100轮，所有其他设置为默认25轮。

随着客户的增加，大多数方法的趋势是相似的。然而，FedProx很难跟上FedAvg的基线，特别是在客户端采样的情况下。这些场景特别重要;当对一小部分客户进行采样时，每轮只对数据集的一部分进行有效训练。因此，学习效率对于保持适当的收敛是至关重要的。标准正则化方法在所有设置中都比FedAvg保持更好的准确性，通常有显著的优势，甚至在客户端采样场景中也是如此。总的来说，GradAug在所有情况下表现最好。

因此，即使这些正则化方法不是为FL设置和部分客户端采样而设计的，它们的性能仍然与当前最先进的FL算法相当或更好。

4. 建议方法- FedAlign

总的来说，我们发现GradAug在FL设置中特别有效，在所有测试场景中具有最高的准确性，同时λmax, HT和HN最低。然而，虽然与许多FL方法相比，这种方法非常节省内存(在训练期间只需要一个存储模型)，但它确实会导致训练时间和局部计算量比FedAvg基线大幅增加。这是因为GradAug需要多次前向通过精简的子网络来实现蒸馏损失。在知识蒸馏过程中使用较少的子网络可以在一定程度上减轻计算负担，如表5所示。在这里，当n = 1,3和4时，GradAug中的µ分别调整为2.0,1.5和1.25。尽管如此，在本地计算需求和后续的wallclock时间方面，GradAug和vanilla FedAvg之间仍然存在相当大的差距。因此，问题是，我们能否设计一种方法，提供与FL中的GradAug类似的效果和性能，但计算开销大大减少?这在FL设置中尤其重要，在FL设置中，客户机通常部署在内存和计算资源最少的设备上。

5. 结论

在这项工作中，我们从简单而独特的局部学习一般性角度研究FL的数据异质性挑战。为此，我们对FL设置中的各种方法进行了深入研究，并进一步提出了FedAlign，该方法以优异的资源效率实现了具有竞争力的SOTA精度。我们研究的一个局限性是我们只关注实验的图像任务和模型。FL的自然语言处理应用也是一个常见的设置，因此可以在未来的工作中进行探索。尽管如此，我们注意到FedAlign可以很容易地应用于语言应用程序，因为它在特征空间中操作，并且不依赖于输入类型。另一方面，GradAug主要是为视觉数据设计的，采用随机转换，并将其应用于子网络的输入。

虽然没有人提出的正则化方法在所有方面都是完美的，但我们强调局部学习在联邦设置中是极其重要的。此外，特别注重促进学习通用性的方法内在地提高了全局FL聚集和优化到令人惊讶的程度。通过在FL中引入GradAug这样的方法，我们提出了对联邦优化的重新思考以及如何应对其挑战。在这个方向上更进一步，FedAlign提供了对经典基线和最先进的FL方法的强大改进，同时解决了FL系统的局部计算限制。