个性化联邦学习

本文探讨了个性化联邦学习(PFL),针对非独立同分布数据的挑战,介绍了两种策略:全局模型个性化和学习个性化模型。文章详细描述了各种方法,如数据增强、客户端选择、模型正则化、元学习和迁移学习,并分析了各自的优缺点。
摘要由CSDN通过智能技术生成

Towards Personalized Federated Learning

一、个性化联邦学习的动机

通用的FL方法面临着几个根本性的挑战:(i)对高度异构数据的收敛性差,(ii)缺乏解决方案个性化。在存在异构本地数据分布的情况下,这些问题会降低全局FL模型在单个客户机上的性能,甚至可能使受影响的客户机不愿加入FL进程。与传统FL相比,PFL研究旨在解决这两个挑战。

1)异构数据收敛性差:在非独立同分布(non-IID)数据上学习时,fedag的准确性会显著降低。这种性能下降归因于客户端漂移现象,这是在非iid的本地数据分布上进行本地训练和同步的结果。

2)缺乏解决方案个性化:在传统FL设置中,一个单一的全局共享模型被训练以适应“普通客户”。因此,对于与全局分布非常不同的局部分布,全局模型将不能很好地泛化。对于经常面对非iid本地数据集的实际应用来说,只有一个模型通常是不够的。

图1说明了集中式机器学习、FL和PFL的关键概念和动机。

图1:个性化联邦学习的概念、动机和建议分类。a.集中式机器学习,将数据汇集在一起以训练中央ML模型。b.联邦学习,在中心参数服务器的编排下训练全局模型。数据驻留在不同的数据筒仓中。c.个性化联邦学习,它通过全局模型个性化和个性化模型学习来解决FL的局限性。PFL方法有四大类:1)基于数据的,2)基于模型的,3)基于体系结构的,4)基于相似性的。

二、个性化联邦学习的策略

1、全局模型个性化

第一个策略解决了在异构数据上训练全局共享FL模型的性能问题。当在非iid数据上学习时,由于客户端漂移,基于fedavg的方法的准确性显著降低。

在全局模型个性化下,PFL设置密切遵循一般FL训练过程,其中训练单个全局FL模型。然后,通过对每个本地数据集进行额外训练的本地适应步骤,为每个FL客户端个性化训练的全局FL模型。由于个性化性能直接取决于全局模型的泛化性能,许多PFL方法旨在提高数据异构下全局模型的性能,以提高后续对局部数据的个性化性能。这一类的个性化技术分为基于数据的方法和基于模型的方法。基于数据库的方法旨在通过减少客户端数据集之间的统计异质性来缓解客户端漂移问题,而基于模型的方法旨在学习一个强大的全局模型,以便将来对单个客户进行个性化处理或提高局部模型的自适应性能。

图2:策略1:全局模型个性化下的方法的设置和配置。基于数据的方法a-b:(a)数据增强,(b)客户选择。基于模型的方法c - e:(c)正则化局部损失;正则化可以在1)全局模型和局部模型之间进行,2)历史局部模型快照之间进行,(d)元学习,(e)迁移学习。

基于数据的方法

由于在异构数据上进行联邦训练所引起的客户端漂移问题,基于数据的方法旨在减少客户端数据分布的统计异质性。这有助于提高全局FL模型的泛化性能。

a数据增强

由于训练数据的IID属性是统计学习理论的一个基本假设,因此增强数据统计同质性的数据增强方法在机器学习领域得到了广泛的研究。已经提出了涉及合成数据生成的过采样技术(例如SMOTE和ADASYN)和欠采样技术(例如Tomek链路)来减少数据不平衡。但是,这些技术不能在FL设置下直接应用,在FL设置下,驻留在联合中的客户机上的数据是分布式的和私有的。FL中的数据增强极具挑战性,因为它通常需要某种形式的数据共享,或者依赖于代表整体数据分布的代理数据集的可用性。

b客户端选择

另一项工作侧重于设计FL客户端选择机制,以便从更均匀的数据分布中进行采样,目的是提高模型泛化性能。

最近,有一种新兴的工作侧重于开发客户选择策略,以解决边缘计算应用中普遍存在的数据和资源异构挑战。对于跨设备FL,在计算和通信能力方面,硬件能力通常存在显著的可变性。数据也存在异质性,客户之间数据的数量和分布存在差异。这种多样性加剧了通信成本、掉队者和模型准确性等挑战。

基于模型的方法

尽管基于数据的方法通过减轻客户端漂移问题提高了全局FL模型的收敛性,但它们通常需要修改局部数据分布。这可能导致丢失与客户行为固有多样性相关的宝贵信息。这些信息对于个性化每个客户机的全局模型非常有用。在本节中,我们将介绍基于模型的全局模型个性化FL方法。目标是学习一个强大的全局FL模型,以便将来在每个单独的客户端上进行个性化,或者提高局部模型的自适应性能。

c正则化局部损失

模型正则化是训练机器学习模型时防止过拟合和提高收敛性的常用策略。在FL中,正则化技术可以用来限制局部更新的影响。这提高了收敛稳定性和全局模型的泛化,进而可以用于生成更好的个性化模型。而不是仅仅最小化局部函数fc(θ),每个客户端c最小化以下目标:min_{\theta\in{R_d}}h_c(\theta;w):=f_c(\theta)+l_{reg}(\theta;w),(4)其中lreg (θ;w)是正则化损失,通常表示为客户端c的全局模型w和局部模型θc的函数。正则化可以通过以下方式应用:1)全局和局部模型之间:一些作品实现了全局和局部模型之间的正则化,以解决由于统计数据异质性而在FL中普遍存在的客户端漂移问题。2)历史局部模型快照之间。

d元学习

元学习通常被称为“学会学习”,旨在通过接触各种任务(即数据集)来改进学习算法。这使得模型能够快速有效地学习新任务。基于优化的元学习算法,如模型不可知元学习(MAML)和Reptile,以其良好的泛化和对新的异构任务的快速适应而闻名。它们也是模型不可知的,可以应用于任何基于梯度下降的方法,从而可以在监督学习和强化学习中应用。

e迁移学习

迁移学习(TL)通常用于非联邦设置中的模型个性化。它旨在将知识从源领域转移到目标领域,这两个领域通常不同但又相关。TL是一种有效的方法,它利用了来自预训练模型的知识转移,从而避免了从头开始构建模型的需要。

领域自适应TL技术是实现PFL的常用技术。这些技术旨在减少训练好的全局FL模型(即源域)和给定的局部模型(即目标域)之间的域差异,以改进个性化。FL中有几项研究在医疗保健领域使用TL进行模型个性化。训练过程一般包括三个步骤:(i)通过FL训练一个全局模型;通过根据当地数据调整全球模式来训练当地模式;(3)通过迁移学习,利用全局模型对局部模型进行细化,训练个性化模型。为了实现域自适应,通常在softmax层之前添加一个对齐层,如相关对齐(CORAL)层,用于自适应源域和目标域的二阶统计量。为了减少深度神经网络的训练开销,全局模型的较低层次经常被转移和转移

在本节中,我们讨论了用于全局模型个性化的基于数据的方法和基于模型的方法。在表一总结和比较个性化技术的优缺点。

基于数据的方法旨在减少客户端数据分布的统计异质性,以解决客户端漂移问题。数据增强方法在一般FL训练程序中易于实现。然而,这些数据增强方法的适用性在一定程度上受到限制,因为现有的设计没有充分解决数据共享导致隐私泄露的可能性。在训练过程中,经常会共享数据样本或客户数据分布的数据统计。

客户端选择方法通过优化每个FL通信回合的参与客户端子集来提高模型泛化性能。由于这需要计算密集型算法,因此它比fedavg产生更高的计算开销。此外,许多基于数据的方法都假设代理数据集的可用性,该数据集代表全局数据分布。为了构建这样的代理数据集,有必要了解全局数据分布,这在FL设置下由于隐私保护问题而具有挑战性。

基于模型的方法密切遵循通用的FL训练过程,其中训练单个全局模型。部分正则化方法很容易实现,它们只需要对fedavg算法进行轻微的修改。元学习优化全局模型,实现快速个性化。然而,由于二阶梯度的计算成本很高,因此需要梯度近似。迁移学习通过减少全局模型和局部模型之间的域差异来提高个性化。由于上述方法假设了单个全局模型设置,其中单个全局模型是在异构数据筒仓上学习的,因此当客户端数据分布之间存在显著差异时,它们不适合解决方案个性化。此外,基于模型的方法通常假设所有客户机和FL服务器共享一个公共模型体系结构。这个假设要求所有客户机都有足够的计算和通信资源。然而,边缘计算FL客户端通常是资源受限的,使得这种方法不适合。

2、学习个性化模型

第二个策略解决了解决方案个性化的挑战。与训练单个全局模型的全局模型个性化策略相反,该类别中的方法训练单个个性化FL模型。目标是通过修改FL模型聚合过程来构建个性化模型。个性化技术分为基于体系结构的方法和基于相似度的方法。基于体系结构的方法旨在提供为每个客户量身定制的个性化模型体系结构,而基于相似性的方法旨在利用客户关系来改进个性化模型性能,其中为相关客户构建类似的个性化模型。

图3:策略II:学习个性化模型下的方法的设置和配置。基于架构的方法a - b:(a)参数解耦;参数私有化设计包括:1)个性化层;2)个性化特征表示;(b)知识蒸馏;知识可以被提炼出来:1)对客户,2)对服务器,3)对客户和服务器,4)在客户之间。基于相似性的方法c - e:(c)多任务学习,(d)模型插值,(e)聚类。

基于体系结构的方法

基于体系结构的PFL方法旨在通过为每个客户量身定制的定制模型设计来实现个性化。参数解耦方法实现每个客户端的个性化层,知识蒸馏方法支持每个客户端的个性化模型体系结构。

a参数解耦

参数解耦的目的是通过将局部私有模型参数与全局FL模型参数解耦来实现PFL。私有参数在客户端本地训练,而不与FL服务器共享。这允许学习特定于任务的表示,以增强个性化。私有模型参数和联邦模型参数之间的划分是一个体系结构设计决策。深度前馈神经网络的参数解耦通常有两种配)。第一种是“基础层+个性化层”设计。在这种情况下,个性化的深层由客户端保密,以供本地培训学习个性化的特定任务表示,而基础层与FL服务器共享以学习低级通用特性。第二个设计考虑了每个客户端的个性化特征表示。

由于参数解耦的思想与分裂学习(split learning, SL)有一些相似之处,后者是一种分布式和私有的机器学习范式,我们在本节中简要讨论它们的区别。在SL中,深度网络在服务器和客户端之间按层划分。与参数解耦不同,SL中的服务器模型不会转移到客户端进行模型训练。相反,在向前传播期间,只有客户端模型的拆分层的权重被共享,而在反向传播期间,拆分层的梯度与客户端共享。因此,SL比FL具有隐私优势,因为服务器和客户端无法完全访问全局和本地模型。然而,由于连续的客户培训过程,培训效率较低。在非iid数据上,SL的性能也比FL差,并且通信开销更高。

b知识蒸馏

在基于服务器的水平联邦学习(HFL)中,FL服务器和FL客户端采用相同的模型架构。基本假设是客户端有足够的通信带宽和计算能力。然而,对于具有大量边缘设备作为FL客户端的实际应用,它们通常受到资源限制。由于不同的培训目标,客户也可以选择不同的模型架构。FL中知识升华的关键动机是为客户提供更大程度的灵活性,以适应个性化的模型体系结构。同时,它还寻求通过减少资源需求来解决通信和计算能力的挑战。

在现有的FL蒸馏方法中,知识通常表示为类分数或logit输出。一般来说,基于蒸馏的FL架构有四种主要类型:(i)将知识蒸馏到每个FL客户端以学习更强的个性化模型,(ii)将知识蒸馏到FL服务器以学习更强的服务器模型,(iii)向FL客户端和FL服务器双向蒸馏,以及(iv)客户端之间的蒸馏。

基于相似性的方法

基于相似性的方法旨在通过对客户关系建模来实现个性化。为每个客户学习一个个性化的模型,相关的客户学习类似的模型。PFL研究了不同类型的客户关系。多任务学习和模型插值考虑成对客户关系,而聚类考虑组级客户关系。

c多任务学习

多任务学习(MTL)的目标是训练一个能联合执行多个相关任务的模型。这通过在学习任务中利用特定领域的知识来改进泛化。通过将每个FL客户端视为MTL中的一个任务,有可能学习和捕获客户端之间的关系,这些关系是由它们的异构本地数据显示的。

d模型插值

(F. Hanzely and P . Richtárik, “Federated Learning of a Mixture of Global and Local Models,” arXiv:2002.05516, 2020.)“Federated Learning of a Mixture of Global and Local Models”中,提出了一种使用全局模型和局部模型混合学习个性化模型的新公式,以平衡泛化和个性化。每个FL客户端学习一个单独的本地模型。惩罚参数λ用于防止局部模型与平均模型相差太大。纯局部模型学习发生在λ设为0时。这相当于完全个性化的FL设置,其中每个客户端在本地训练自己的模型,而无需与其他客户端进行任何通信。随着λ的增加,混合模型学习发生,局部模型变得越来越相似。该设置近似于全局模型学习,其中当λ接近无穷大时,所有局部模型都被迫相同。这样,就可以控制个性化的程度。

此外,作者提出了SGD的通信高效变体,称为无环路局部梯度下降(L2GD)。通过确定是执行局部GD步骤还是执行模型聚合步骤的概率框架,可以显著减少通信轮数。

e聚类

对于客户端之间存在固有分区或数据分布明显不同的应用程序,采用客户机-服务器FL架构来训练共享全局模型并不是最优的。一种多模型方法,其中为每个同质客户组训练一个FL模型更合适。最近的一些工作集中在FL个性化的聚类上。基于聚类的FL的基本假设是存在一个基于客户端本地数据分布的自然分组。

在本节中,我们讨论了学习个性化模型的基于体系结构的方法和基于相似性的方法。在表2总结和比较个性化技术的优缺点。

基于体系结构的方法旨在通过为每个客户量身定制的定制模型设计来实现个性化。由于参数解耦方法有一个简单的公式,为每个客户端实现个性化层,它在支持高度模型设计个性化的能力方面受到限制。相反,基于kd的PFL方法为客户提供了更大程度的灵活性,以适应客户的个性化模型体系结构。它们在通信和计算受限的边缘FL设置中也具有优势。然而,在KD过程中,通常需要一个具有代表性的代理数据集。对于这两种方法,在模型构建方面都存在一些挑战。在参数解耦中,私有参数和联邦参数的分类是一种架构设计决策,它控制着泛化和个性化性能之间的平衡。确定最优私有化策略是一项研究挑战。在知识分配中,知识转移的有效性不仅取决于模型参数,还取决于模型体系结构。如果大型教师模型和小型学生模型之间存在巨大的容量差距,那么学生模型可能很难很好地学习,因此必须确定服务器和客户端模型的最佳设计。

基于相似性的方法旨在通过对客户关系建模来实现个性化。MTL方法擅长捕获成对客户关系,以学习相关客户的类似模型。因此,它可能对较差的数据质量敏感,从而导致基于数据质量的客户端隔离。模型插值方法有一个简单的公式,它使用全局模型和局部模型的混合来学习个性化模型。然而,在高度非iid的场景中,它的性能可能会下降,因为它使用单一的全局模型作为个性化的基础。当客户机之间存在固有分区时,集群方法是有利的。然而,它们会产生较高的计算和通信成本,限制了大规模设置的实际可行性。管理和部署集群机制还需要额外的架构组件。

  • 30
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值