【论文阅读】Federated Learning: Challenges, Methods, and Future Directions

摘要

联邦学习是一种在分布式环境下进行模型训练的新兴技术,其中数据分散在多个设备上,并且保留在本地。本文回顾了联邦学习的挑战、方法和未来发展方向。首先,我们讨论了在联邦学习中的隐私和安全问题,如如何保护用户数据的隐私和预防恶意攻击。其次,我们探讨了模型通信和聚合的效率问题,包括如何减少通信量和加速模型聚合。此外,我们介绍了一些在联邦学习中常用的算法和技术,如联邦平均和差分隐私。最后,我们展望了联邦学习领域的未来发展方向,包括优化算法、跨设备学习和联邦强化学习等。

1 引言

移动电话,可穿戴设备和自动驾驶汽车只是现代分布式网络中的一小部分,每天产生大量数据。由于这些设备的计算能力不断增长,加上对传输私人信息的担忧,因此在数据位置存储并将网络计算推向边缘越来越有吸引力。

边缘计算的概念并不是一个新的概念。实际上,在分布式,低功耗设备上计算简单的查询是一个长达数十年的研究领域,已经在传感器网络中的查询处理,边缘计算和雾计算的范围内进行了探索。最近的工作还考虑集中培训机器学习模型,但在本地提供和存储它们; 例如,这是移动用户建模和个性化中的常见方法。

但是,随着分布式网络中设备的存储和计算能力的增长,可以利用每个设备上增强的本地资源。这引起了人们对联邦学习的兴趣日益浓厚,该学习探索直接在远程设备上训练统计模型。正如我们在本文中所讨论的,在这样的环境中学习与传统的分布式环境有很大不同--需要在隐私、大规模机器学习和分布式优化等领域取得根本性进展、 并在机器学习和系统等不同领域的交叉点上提出了新的问题。

1:联邦学习在手机上进行下一个词预测任务的示例应用。为了保护文本数据的隐私并减轻网络压力,我们希望以分布式的方式进行预测器的训练,而不是将原始数据发送到中央服务器。在这种设置中,远程设备定期与中央服务器通信以学习全局模型。在每轮通信中,一部分选定的手机对其非完全相同分布的用户数据进行本地训练,并将这些本地更新发送到服务器。在合并更新后,服务器将新的全局模型发送回另一部分设备。这个迭代的训练过程在整个网络中继续,直到达到收敛状态或满足某个停止准则。

主要服务提供商已经部署了联合学习方法,并且在支持隐私敏感的应用程序中发挥了关键作用,其中训练数据分布在边缘。潜在应用的示例包括: 学习情感,语义定位或移动电话用户的活动; 适应自动驾驶汽车中的行人行为;并预测健康事件,如可穿戴设备的心脏病发作风险。我们在下面讨论联合学习的几个规范应用:

智能手机

通过在大量手机上共同学习用户行为,统计模型扫描为下一词预测、人脸检测和语音识别等应用提供动力。但是,用户可能不愿意共享其数据以保护其个人隐私或节省其手机的有限带宽/电池电量。联合学习具有在智能手机上启用预测功能的潜力,而不会减少用户体验或泄漏私人信息。图1描述了一种这样的应用程序,其中我们旨在基于用户的历史文本数据在大规模移动电话网络中学习下一个单词预测器。

组织

在联邦学习的背景下,组织或机构也可以被视为设备。例如,医院是包含大量患者数据的组织,用于预测医疗保健。但是,医院在严格的隐私惯例下运营,并且可能面临法律,行政或道德约束,这些约束要求数据保持本地状态。联合学习是这些应用程序的一个有前途的解决方案,因为它可以减少网络上的压力,并实现各种设备/组织之间的私有学习。

物联网

现代物联网网络,如可穿戴设备、自动驾驶车辆或智能机器人,可能包含大量传感器,允许它们实时收集、反应和适应传入数据。例如,自动驾驶汽车可能需要最新的交通、建筑或行人行为模型才能安全运行。然而,由于数据的私密性和每个设备的连接性有限,在这些场景中建立综合模型可能会很困难。联合学习方法可以帮助训练模型,使其有效地适应这些系统的变化,同时维护用户隐私。

1.1Problem Formulation-问题表述

典型的联邦学习问题涉及从存储在数十个到数百万个远程设备上的数据中学习一个单一的全局统计模型。我们的目标是在设备生成的数据仅在本地存储和处理的约束下,周期性地通过中央服务器进行中间更新的通信,来学习这个模型。特别是,通常的目标是最小化以下目标函数:

这里,m是设备的总数, pk ≥ 0 andkpk=1 ,并Fk为第k个设备的局部目标函数。局部目标函数通常被定义作为局部数据的经验风险,即,其中nk本地可用的样本数量。用户定义的术语pk指定了每个设备的相对影响,两个自然设置是,其中n=knk为样本总数。我们将在整篇文章中引用问题,但是,如下面所讨论的,我们注意到,根据感兴趣的应用,其他目标或建模方法可能是合适的。

1.2Core Challenges-核心挑战

接下来,我们将描述与解决中提出的分布式优化问题相关的四个核心挑战。这些挑战使联合设置与其他经典问题不同,例如数据中心设置中的分布式学习或传统的私有数据分析。

挑战1:高昂的通信成本。在联邦网络中,通信是一个关键瓶颈,再加上对发送原始数据的隐私担忧,导致每个设备生成的数据必须保持本地。事实上,联邦网络可能由大量设备组成,例如数百万部智能手机,而网络通信可能比本地计算慢很多数量级。为了将模型适应于联邦网络中设备生成的数据,因此有必要开发通信高效的方法,通过训练过程中迭代发送小的消息或模型更新,而不是通过网络发送整个数据集。为了进一步减少这种设置中的通信量,有两个关键方面需要考虑:(i) 减少总通信轮次,或者 (ii) 减少每轮传输的消息大小。

        

挑战2:系统异构性。联邦网络中每个设备的存储、计算和通信能力可能因硬件 (CPU、内存) 的差异性、网络连接性 (3G4G5GWi-Fi) 及电力 (电池电量) 的变化而不同。此外,网络规模和每个设备上的系统相关限制通常导致只有一小部分设备同时活跃,例如,在一百万设备的网络中只有几百个设备处于活跃状态。每个设备可能也不可靠,由于连接或能量限制,活跃的设备在特定迭代中可能会中断。这些系统级特征极大地加剧了诸如减少滞后节点和容错性等挑战。因此,开发和分析的联邦学习方法必须能够:(i) 预测参与度较低,(ii) 忍受不同硬件,以及 (iii) 对网络中失效的设备具有鲁棒性。

        

挑战3:统计异构性。设备在网络中通常以非完全相同分布的方式生成和收集数据,例如,在下一个单词预测任务的上下文中,移动电话用户的语言使用方式各不相同。此外,设备之间的数据点数量可能存在显著差异,而且可能存在一个潜在的结构,用于捕捉设备之间及其相关分布之间的关系。这种数据生成范式违反了分布式优化中经常使用的独立同分布(I.I.D.)假设,增加了滞后节点的可能性,并且在建模、分析和评估方面可能增加了复杂性。实际上,尽管典型的联邦学习问题旨在学习一个单一的全局模型,但存在其他选择,例如通过多任务学习框架同时学习不同的本地模型。在联邦学习和元学习方面存在密切联系。多任务学习和元学习两种方法都能够实现个性化或设备特定的建模,这通常是处理数据的统计异构性更自然的方法。

        

挑战4:隐私问题。最后,隐私在联邦学习应用中通常是一个重要的关注点。联邦学习通过分享模型更新(如梯度信息)而非原始数据的方式,迈出了保护每个设备生成数据的一步。然而,在整个训练过程中通信模型更新仍然可能泄露敏感信息,无论是给第三方还是给中央服务器。虽然最近的方法旨在使用安全多方计算或差分隐私等工具增强联邦学习的隐私性,但这些方法往往以牺牲模型性能或系统效率为代价提供隐私保护。理解和平衡这些权衡,从理论和实证方面考虑,是实现私密联邦学习系统的一个重要挑战。

本文的其余部分组织如下。在第2节中,我们介绍了以前和当前的工作,这些工作旨在解决联邦学习的四个挑战。在第3节中,我们概述了未来研究的几个有希望的方向。

引言总结

联邦学习旨在解决在数据隐私和安全性方面的挑战,它提供了一种可行的机制,使得个体数据能够留在本地设备上,同时进行模型优化。然而,联邦学习还面临着一些挑战,包括数据偏差问题、通信效率问题和隐私问题。为了克服这些挑战,研究人员已经提出了许多方法和技术,并且有很多潜在的未来发展方向。

2.相关和当前工作的调查

在表面上看,联邦学习面临的挑战与隐私、大规模机器学习和分布式优化等领域中的经典问题相似。例如,在机器学习、优化和信号处理领域已经提出了许多方法来解决通信成本高昂的问题。然而,这些方法通常无法完全处理联邦网络的规模,更不用说系统和统计异构性所带来的挑战了。同样地,尽管隐私对于许多机器学习应用来说是一个重要方面,但由于数据的统计变化,针对联邦学习的隐私保护方法可能很难严格断言,并且由于每个设备及可能的庞大网络上的系统限制,实施起来可能更加困难。在本节中,我们将更详细地探讨第一节中提出的挑战,包括对经典结果的讨论以及针对联邦学习的最新研究工作。

2:左图:分布式(小批量)随机梯度下降。每个设备k从数据点的小批量中计算梯度以近似∇Fk(w),并将聚合的小批量更新应用于服务器上。右图:本地更新方案。每个设备在计算完更新(例如梯度)后立即应用本地更新,而服务器在一定数量的本地更新后进行全局聚合。本地更新方案可以通过在本地执行额外的工作来减少通信量.

​​​​​​​2.1 Communication-efficiency-通信效率

通信是开发联合网络方法时要考虑的关键瓶颈。虽然这超出了本文的范围,以提供对通信有效的分布式学习方法的自包含的回顾,但我们指出了几个总体方向,我们将其分为 (1) 局部更新方法,(2) 压缩方案和 (3) 分散训练。

​​​​​​​2.1.1 Local Updating-本地更新

小批量优化方法将经典随机方法扩展到一次处理多个数据点的方式,已成为数据中心环境中分布式机器学习的流行范式。然而,在实践中,它们被发现在适应通信-计算权衡方面具有有限的灵活性,无法充分利用分布式数据处理。为了应对这个问题,近年来提出了几种改进分布式环境中通信效率的方法,允许在每个通信轮次中并行地在每台机器上应用可变数量的本地更新,从而使计算与通信之间的比例更加灵活。对于凸目标,分布式本地更新的原始对偶方法已成为解决此类问题的流行方式。这些方法利用对偶结构,将全局目标有效地分解为可在每个通信轮次并行求解的子问题。还提出了几种分布式本地更新的原始方法,其额外的好处是适用于非凸目标。这些方法在实践中大大提高了性能,并且已经证明在真实的数据中心环境中,与传统的小批量方法或ADMM等分布式方法相比,速度提升了几个数量级。我们在图2中提供了本地更新方法的直观说明。

在联邦设置中,允许灵活本地更新和低客户端参与度的优化方法已成为事实上的求解器。联邦平均(FedAvg)是最常用的联邦学习方法,它基于对原始问题的本地随机梯度下降(SGD)更新进行平均。FedAvg在经验上表现良好,尤其适用于非凸问题,但在数据异构的实际设置中可能会出现发散的情况,而且缺乏收敛保证。我们在第2.3.2节中更详细地讨论了处理统计异构性的方法。

3: 集中式拓扑与分散式拓扑。在典型的联合学习设置中,作为本文的重点,我们假设一个星形网络 (),其中服务器与所有远程设备连接。当与服务器的通信成为瓶颈时,分散拓扑 () 是一种潜在的替代方案。

​​​​​​​2.1.2 Compression Schemes-压缩方案

虽然本地更新方法可以减少通信轮次的总数,但模型压缩方案(如稀疏化、子采样和量化)可以显著减小每轮通信中传输的消息大小。在之前的文献中,这些方法在数据中心环境中的分布式训练中得到了广泛研究,无论是从经验上还是从理论上,我们推荐读者参阅进行更全面的回顾。在联邦环境中,设备的低参与度、非同分布的本地数据和本地更新方案对这些模型压缩方法提出了新的挑战。例如,经典分布式学习中常用的误差补偿技术不能直接推广到联邦设置中,因为如果设备没有频繁采样,本地累积的误差可能过时。尽管如此,一些研究在联邦环境中提供了实用的策略,如强制更新的模型稀疏化和低秩化;使用结构化随机旋转进行量化;使用有损压缩和dropout减少服务器与设备之间的通信;以及应用Golomb无损编码。从理论上讲,虽然之前的工作已经在非同分布数据存在的情况下探索了低精度训练的收敛保证,但所做的假设并没有考虑到联邦设置的常见特征,如低设备参与度或本地更新的优化方法。

​​​​​​​2.1.3 Decentralized Training-分散训练

在联邦学习中,星型网络(其中一个中央服务器连接到设备网络,如图3左侧)是主要的通信拓扑结构;因此,本文重点讨论星型网络环境。然而,我们简要讨论分散式拓扑结构(设备仅与其相邻设备通信,例如图3右侧)作为一种潜在的替代方案。在数据中心环境中,当在带宽低或延迟高的网络上运行时,分散式训练已被证明比集中式训练更快;我们推荐读者参阅进行更全面的回顾。类似地,在联邦学习中,分散式算法在理论上可以减少中央服务器的高通信成本。一些最近的工作已经研究了具有本地更新方案的异构数据的分散式训练。然而,它们要么仅限于线性模型,要么假设设备全面参与。最后,还提出了分层通信模式],进一步减轻中央服务器的负担,首先利用边缘服务器聚合边缘设备的更新,然后依靠云服务器聚合边缘服务器的更新。尽管这是一种有希望减少通信的方法,但并不适用于所有网络,因为此类物理层次结构可能不存在或事先不知道。

4: 联合学习中的系统异质性。设备可能会在网络连接,电源和硬件方面有所不同。此外,在训练过程中,某些设备可能随时掉落。因此,联合训练方法必须容忍异构系统环境和设备的低参与度,即,它们必须允许在每一轮中只有一小部分设备处于活动状态。

​​​​​​​2.2 Systems Heterogeneity-系统异质性

在联邦设置中,网络中存在着系统特性的显著差异,因为设备在硬件、网络连接和电池电力等方面可能会有所不同。如图4所示,这些系统特性使得类似于慢速设备(stragglers)的问题比典型的数据中心环境更为普遍。我们大致将处理系统异质性的几个关键方向分为:(i) 异步通信,(ii) 主动设备采样,和 (iii) 容错性。正如在第2.1.3节中提到的,我们在下面的讨论中假设了星型拓扑结构。

​​​​​​​2.2.1 Asynchronous Communication-异步通信

在传统的数据中心设置中,同步和异步方案都常用于并行化迭代优化算法,每种方法都有其优缺点。同步方案简单且保证了串行等效的计算模型,但在面对设备异质性时更容易受到慢速设备的影响。异步方案是在异构环境中减轻慢速设备问题的一种有吸引力的方法,特别是在共享内存系统中。然而,它们通常依赖于有界延迟的假设来控制过时程度,对设备k来说,这取决于自从设备k从中央服务器获取数据后更新的其他设备数量。虽然异步参数服务器在分布式数据中心中取得了成功,但在联邦设置中,传统的有界延迟假设可能不现实,延迟可能达到几小时甚至几天,或者完全没有上限。

​​​​​​​2.2.2 Active Sampling-主动采样

在联邦网络中,通常每一轮训练只有一个小部分设备参与。然而,绝大多数联邦方法是被动的,即它们不会主动影响哪些设备参与。另一种方法是在每一轮中主动选择参与的设备。例如,NishioYonetani基于系统资源探索了新的设备采样策略,旨在使服务器在预定义的时间窗口内聚合尽可能多的设备更新。同样,Kang等人在设计激励机制以鼓励具有更高质量数据的设备参与学习过程时考虑了设备上产生的系统开销。然而,这些方法假设网络的系统特性是静态的;如何将这些方法扩展到处理计算和通信延迟的实时、设备特定的波动仍然是一个开放问题。此外,虽然这些方法主要关注系统的变化性以进行主动采样,但我们也注意到,基于底层统计结构主动采样一组小而足够具有代表性的设备是值得考虑的。

​​​​​​​2.2.3 Fault Tolerance-容错

容错性已经在系统领域得到了广泛研究,并且是传统分布式系统的基本考虑因素。近期的研究也特别调查了数据中心环境下机器学习工作负载的容错性。然而,在远程设备上进行学习时,容错性变得更加关键,因为在给定的训练迭代完成之前,一些参与的设备往往会在某个时刻退出。一种常见的实际策略是简单地忽略这种设备故障,这可能会导致设备采样方案中的偏差,尤其是如果失败的设备具有特定的数据特征。例如,来自偏远地区的设备可能很可能因为网络连接差而中途退出,因此训练的联邦模型将会对具有良好网络条件的设备有偏差。理论上,虽然最近的一些研究已经调查了联邦学习方法的变种的收敛性保证,但很少分析允许低参与度,或直接研究的设备退出的影响。

编码计算是通过引入算法冗余来容忍设备故障的另一种选择。最近的研究探索了使用编码来加速分布式机器学习训练。例如,在存在慢速设备的情况下,梯度编码及其变种会仔细地在计算节点之间复制数据块(以及对这些数据块的梯度计算),以获得真实梯度的精确或近似恢复。虽然这在联邦设置中似乎是一种有希望的方法,但这些方法在联邦网络中面临着基本的挑战,因为由于隐私限制和网络规模的原因,在设备之间共享数据/复制通常是不可行的。

​​​​​​​2.3 Statistical Heterogeneity-统计异质性

在训练不同设备间数据分布不一致的联邦模型时,出现了一些挑战,这些挑战涉及到数据建模(如图5所示)以及分析相关训练过程的收敛行为。下面我们将讨论与这些方向相关的研究工作。​​​​​​​

2.3.1 Modeling Heterogeneous Data-异构数据建模

5: 联合网络中的不同建模方法。根据感兴趣的数据、网络和应用的属性,可以选择 (a) 学习每个设备的单独模型,(b) 对所有设备的全局模型,或者 (c) 学习相关但不同的模型网络。

在机器学习领域存在大量文献,通过元学习[114]和多任务学习[18, 37]等方法对统计异构性进行建模;这些想法最近已经扩展到联邦学习环境中。例如,为联邦学习设计的优化框架MOCHA可以通过多任务学习为每个设备学习独立但相关的模型,并利用共享表示来实现个性化。该方法对于考虑的目标具有可证明的理论收敛保证,但在规模化到大型网络和仅限于凸目标方面存在局限性。另一种方法将星型拓扑模型建模为贝叶斯网络,并在学习过程中进行变分推断。虽然这种方法可以处理非凸模型,但在大型联邦网络上推广较为昂贵。Khodak等人通过使用多任务信息(其中每个任务对应一个设备)可证明元学习任务内学习率的方法,并在实证效果上表现出比普通FedAvg更好的性能。Eichner等人研究了一种多元化的解决方案(在全局模型和设备特定模型之间自适应选择),以解决联邦训练中数据样本的循环模式问题。Zhao等人通过在一些共享的代理数据上在中心化训练了一个全局模型后,在个性化上探索了迁移学习,然后运行FedAvg。尽管取得了这些最新的进展,但在联邦学习环境中,实现异构建模方法的鲁棒性、可扩展性和自动化仍然存在关键挑战。

在建模联邦数据时,考虑超出准确性的问题,比如公平性,也可能是重要的。特别是,简单地解决像公式(1)中的聚合损失函数可能会使一些设备获益或受损,因为学得的模型可能会对具有更多数据的设备有偏见,或者(如果对设备进行平等加权)对常见的设备组有偏见。最近的研究提出了修改的建模方法,旨在减少设备间模型性能的差异。一些启发式方法只是根据本地损失进行各种数量的本地更新。其他更为原则性的方法包括Agonistic Federated Learning,通过极小极大优化方案,优化集中式模型以适应由客户端分布混合形成的任何目标分布。李等人采取的另一种更一般的方法是提出了一种称为q-FFL的目标,其中具有更高损失的设备被赋予更高的相对权重,以鼓励最终准确度分布的较小变化。除了公平性问题外,我们注意到在联邦学习中,问责和可解释性等方面也值得探索,但由于网络的规模和异构性,可能会面临挑战。

​​​​​​​2.3.2Convergence Guarantees for Non-IID Data-IID数据的收敛保证

在联邦学习中,统计异构性还在分析收敛行为方面带来了新的挑战,即使学习一个单一的全局模型也是如此。事实上,当网络中的设备上的数据不完全相同分布时,例如FedAvg等方法在实践中已经显示出发散的情况。并行SGD及其相关变体,这些方法类似于FedAvg进行本地更新,已在独立同分布(I.I.D.)的设置中进行了分析。然而,这些结果依赖于每个本地求解器是同一个随机过程的副本的假设(由于I.I.D.假设),而这在典型的联邦学习设置中并不成立。为了理解在统计异构性的环境中FedAvg的性能,最近提出了FedProxFedProxFedAvg方法进行了一小的修改,以在理论上和实践中确保收敛。FedProx还可以被解释为FedAvg的广义重新参数化版本,在考虑设备间系统异构性的情况下具有实际影响。其他一些工作在不同的假设下,如凸性或梯度一致有界性,也探讨了在存在异构数据时的收敛保证。也有一些启发式方法旨在解决统计异构性问题,例如通过共享本地设备数据或某些服务端代理数据。然而,这些方法可能是不现实的:除了对网络带宽施加负担之外,将本地数据发送到服务器违反了联邦学习的关键隐私假设,将全局共享的代理数据发送给所有设备也需要努力精心生成或收集这样的辅助数据。

方法和技术总结

为了克服挑战,研究人员提出了多种联邦学习的方法和技术。其中包括联邦平均、模型个性化、模型聚合和差分隐私等。联邦平均是一种常用的模型更新方法,通过在设备上训练模型并将更新聚合到全局模型中来实现。模型个性化则允许在保持数据隐私的情况下进行个性化的模型训练。差分隐私是一种保护用户数据隐私的方法,通过向模型参数添加噪声来保护数据隐私。

​​​​​​​2.4 Privacy-隐私

在联邦学习设置中,隐私问题通常促使人们需要将原始数据保留在每个设备上。然而,共享其他信息,如模型更新作为训练过程的一部分,也可能泄露敏感用户信息。例如,Carlini等人展示了可以从在用户语言数据上训练的递归神经网络中提取敏感文本模式,例如特定的信用卡号码。鉴于对保护隐私的学习方法日益增加的兴趣,在第2.4.1节中,我们首先简要回顾了在一般(分布式)机器学习环境中增强隐私的先前工作。然后在第2.4.2节中,我们回顾了专门为联邦学习环境设计的最近的隐私保护方法。

​​​​​​​2.4.1Privacy in Machine Learning-机器学习中的隐私

6: 一轮联合学习中不同隐私增强机制的说明。M表示用于将数据私有化的随机机制。使用全局隐私 (b),模型更新对除单个受信任方 (中央服务器) 以外的所有第三方都是私有的。使用本地隐私 (c),单个模型更新也是服务器专用的。

隐私保护学习已经得到了机器学习,系统和理论社区的广泛研究。我们将简要回顾三种主要策略,包括差分隐私用于通信噪声数据概要,同态加密用于对加密数据进行操作,以及安全函数评估或多方计算。

在这些各种隐私方法中,由于其强信息理论保证,算法简单性和相对较小的系统开销,差分隐私是最广泛使用的。简单来说,如果一个随机化机制对输入元素的改变不会导致输出分布的太大差异,则具有差分隐私;这意味着我们无法推断出特定样本是否被用于学习过程。这种样本级隐私可以在许多学习任务中实现。对于基于梯度的学习方法,一种常用的方法是通过在每次迭代中随机扰动中间输出来应用差分隐私。在应用扰动之前,通过截断梯度来限制每个示例对整体更新的影响是常见的做法。

差分隐私和模型准确性之间存在固有的权衡,因为添加更多的噪声会导致更大的隐私,但可能会严重影响准确性。尽管差分隐私是机器学习中隐私的事实上的度量标准,但还有许多其他隐私定义,例如k-匿名性、δ-存在性和距离相关性,可能适用于不同的学习问题。

除了差分隐私之外,同态加密可以通过在加密数据上进行计算来保护学习过程,尽管目前仅在有限的设置中应用,例如训练线性模型或仅涉及少数实体。当敏感数据集分布在不同的数据所有者之间时,另一个自然的选择是通过安全函数评估(SFE)或安全多方计算(SMC)进行隐私保护学习。生成的协议可以使多个参与方协同计算一个约定的函数,而不泄漏除了从输出中可以推断出的信息之外的任何参与方的输入信息。因此,虽然SMC不能保证免受信息泄漏的保护,但它可以与差分隐私相结合,以实现更强的隐私保证。然而,这些方法可能不适用于大规模机器学习场景,因为它们会带来大量额外的通信和计算成本。此外,SMC协议需要针对目标学习算法中的每个操作进行精心设计和实施。对于基于同态加密和SMC的方法,我们推荐感兴趣的读者阅读进行更全面的评估。

​​​​​​​2.4.2 Privacy in Federated Learning-联合学习中的隐私

联邦学习的设置对现有的隐私保护算法提出了新的挑战。除了提供严格的隐私保证之外,还需要开发计算廉价、通信高效且能够容忍设备丢失的方法,同时不过分损害准确性。尽管在联邦学习中存在各种隐私定义[8, 17, 41, 64, 76, 113],通常可以分为两类:全局隐私和局部隐私。如图6所示,全局隐私要求每轮生成的模型更新对于除中央服务器之外的所有不受信任的第三方都是私密的,而局部隐私进一步要求更新对服务器也是私密的。

目前旨在改善联邦学习隐私的工作通常建立在之前的经典加密协议(如SMC [10, 42]和差分隐私[3, 8, 41, 76])的基础上。Bonawitz等人[10]介绍了一种SMC协议来保护个别模型更新。中央服务器无法看到任何局部更新,但仍然可以观察到每轮的聚合结果。SMC是一种无损方法,可以在极高的隐私保证下保持原始准确性。然而,由此产生的方法会带来显着的额外通信成本。其他工作[41, 76]将差分隐私应用于联邦学习,并提供全局差分隐私。这些方法有许多影响通信和准确性的超参数,必须仔细选择,尽管后续工作[113]提出了自适应梯度剪裁策略来帮助缓解这个问题。在需要更强隐私保证的情况下,Bhowmick等人[8]通过限制潜在对手的能力引入了一种放松版本的局部隐私。它提供比全局隐私更强的隐私保证,并且比严格的局部隐私具有更好的模型性能。Li等人[64]在元学习的背景下提出了局部差分私密算法,可以应用于个性化的联邦学习,并在凸设置下提供可证明的学习保证。此外,差分隐私可以与模型压缩技术结合,以减少通信并同时获得隐私保护的好处[3]

挑战和问题总结

本节中,我们讨论了联邦学习中的一些主要挑战和问题。首先是数据偏差问题,即不同设备上的数据分布可能不同,导致模型在不同设备上的性能差异。其次是通信效率问题,联邦学习需要在设备之间传输模型参数或梯度信息,而这可能会产生大量的通信开销。另一个重要的问题是数据隐私和安全性,如如何保护用户数据的隐私,预防恶意攻击和信息泄漏。

3 Future Directions-未来方向

联邦学习是一个积极且持续进行的研究领域。尽管最近的研究已经开始解决第2节讨论的挑战,但仍有许多关键的开放方向有待探索。在本节中,我们简要概述了围绕之前讨论的挑战(高昂的通信成本、系统异构性、统计异构性和隐私问题)的一些有前途的研究方向,并介绍了在联邦设置中关于生产化和基准测试等问题的额外挑战。

极端通信方案。联邦学习中需要多少通信仍然有待观察。的确,众所周知,机器学习的优化方法可以容忍一定的精度损失;事实上这种误差可以帮助泛化[129]。尽管单次或分而治之的通信方案在传统的数据中心环境中有一定的研究[73, 137],但这些方法在大规模或统计异构网络中的行为还不为人所了解。类似地,近期已提出一次性/少次性的启发式方法[44, 45, 134]用于联邦学习,但尚未在理论上进行分析或进行规模化评估。

通信减少和帕累托前沿。我们讨论了几种减少联邦训练中通信量的方法,如局部更新和模型压缩。为了创建一个现实的联邦学习系统,重要的是要了解这些技术如何相互组合,并系统地分析每种方法在准确性和通信之间的权衡。特别是,最有用的技术将在帕累托前沿上表现出改进,即在相同的通信预算下实现比其他任何方法都更高的准确性,并在广泛的通信/准确性配置上实现这种改进。类似的全面分析已经在高效神经网络推断中进行了[e.g., 9],这种分析对于有意义地比较联邦学习中的通信减少技术是必要的。

异步性的新模型。如第2.2.1节所讨论的,分布式优化中最常研究的两种通信方案是批量同步方法和异步方法(假设延迟是有界的)。这些方案在数据中心环境中更加现实——其中工作节点通常专用于工作负载,即它们在推送完上一个任务的结果之后,立即准备好从中央节点获取下一个任务。相反,联邦网络中,每个设备通常对当前任务没有特定的分配,并且大多数设备在任何给定的迭代中都是非活动的。因此,值得研究这种更逼真的以设备为中心的通信方案的影响——在这种方案中,每个设备可以决定何时以事件触发的方式唤醒并与中央服务器进行交互。

异质性诊断。最近的研究旨在通过度量统计异质性(如在联邦学习上下文中定义的局部差异”[65]以及在其他研究中[100, 116, 130]中用于其他目的)和地球移动距离[138]来量化统计异质性。然而,在训练之前,这些度量指标不容易在联邦网络上计算。这些度量指标的重要性引发了以下开放问题:(i)是否存在简单的诊断方法来快速确定联邦网络中的异质性水平?(ii)是否可以开发类似的诊断方法来量化系统相关的异质性的程度?(iii)当前或新的异质性定义是否可以用于进一步改进联邦优化方法的收敛性?

精细的隐私约束。第2.4.2节中概述的隐私定义涵盖了与网络中的所有设备相关的本地或全局级别的隐私。然而,在实践中,可能需要在更细粒度的层面上定义隐私,因为隐私约束可能因设备的不同甚至在单个设备上的数据点间存在差异。例如,Li等人[64]最近提出了样本特定(而不是用户特定)的隐私保证,从而提供了更准确的模型换取较弱形式的隐私。开发处理混合(设备特定或样本特定)隐私限制的方法是一个有趣且正在进行的未来研究方向。

超越监督学习。需要注意到,迄今为止讨论的方法都是针对监督学习任务开发的,即它们假设联邦网络中的所有数据都有标签。实际上,在现实联邦网络中生成的大部分数据可能是无标签或弱标签的。此外,所面临的问题可能不是按照(1)中呈现的方式适应数据模型,而是进行某种探索性数据分析、确定聚合统计数据,或运行更复杂的任务,如强化学习。解决联邦网络中超越监督学习的问题很可能需要应对可扩展性、异质性和隐私的类似挑战。

联邦学习的生产实施。除了本文讨论的主要挑战外,在实际的生产环境中运行联邦学习会出现一些实际问题。特别是,必须谨慎处理概念漂移(当底层数据生成模型随时间变化时)、日变化(设备在一天或一周中的不同时间表现出不同行为)[35]和冷启动问题(新设备加入网络时)等问题。我们推迟让读者参考[11],其中讨论了生产联邦学习系统中存在的一些实际系统相关问题。

基准测试。最后,由于联邦学习是一个新兴领域,我们正处于一个重要的时刻,可以塑造这个领域的发展,并确保其基于现实世界的设定、假设和数据集。对于更广泛的研究社区来说,进一步建立现有实现和基准测试工具(如LEAF [16]TensorFlow Federated [1])对于促进实证结果的可重复性和新的联邦学习解决方案的传播至关重要。

未来发展方向总结

联邦学习领域有许多潜在的未来发展方向。其中之一是优化算法的改进,以提高联邦学习的效率和性能。另一个方向是跨设备学习,即在不同类型的设备上进行联邦学习,例如移动设备和物联网设备。此外,联邦强化学习也有潜力在联邦学习中发挥作用,通过将强化学习与联邦学习结合,可以解决更复杂的问题。

4. Conclusion-总结

在本文中,我们提供了联邦学习的概述,这是一种在分布式网络中边缘进行统计模型训练的学习范式。我们讨论了联邦学习相对于传统的分布式数据中心计算和经典的隐私保护学习的独特特性和相关挑战。我们提供了关于经典结果以及最近更加专注于联邦环境的最新工作的广泛调查。最后,我们概述了几个值得未来研究努力的开放问题。解决这些问题将需要来自广泛研究社区的跨学科努力。

结论:通过回顾联邦学习的挑战、方法和未来发展方向,我们认识到联邦学习是一个充满潜力和机遇的领域。随着技术的不断发展和研究的深入,我们可以期待联邦学习在各种应用领域的广泛应用,并且在解决数据隐私和安全性等方面发挥重要作用。同时我们也认识到联邦学习仍然面临许多挑战,需要进一步的研究和探索。因此,联邦学习仍然是一个富有活力和发展前景的研究领域,值得我们持续关注和投入。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值