A survey on federated learning联邦学习综述

Abstract

        联邦学习是一种设置,其中多个客户端在中央聚合器的协调下协作解决机器学习问题。联邦学习坚持本地计算和模型传输两大思路,降低了传统集中式机器学习方法带来的一些系统性隐私风险和成本。客户端的原始数据存储在本地,无法进行交换和迁移。随着联邦学习的应用,每个设备使用本地数据进行局部训练,然后将模型上传到服务器进行聚合,最后服务器将模型更新发送给参与者,以达到学习目标。为了提供一个全面的综述并促进该领域的潜在研究,我们从数据划分、隐私机制、机器学习模型、通信架构和系统异构性5个方面系统地介绍了联邦学习的现有工作。然后,梳理了联邦学习目前面临的挑战和未来的研究方向。最后,总结了现有联邦学习的特点,并进行了分析。

1. Introduction

1.1 联邦学习的背景

        随着大数据的发展,数据量已经不再是我们关注的重点。其中迫切需要解决的问题就是数据的隐私性和安全性。

        在人工智能领域,数据是基础,没有数据就无法进行模型训练。然而,数据往往以数据孤岛的形式存在。目前流行的数据处理方法是集中采集、统一处理、清洗和建模。在大多数情况下,数据在收集和处理过程中会被泄露。

        联邦学习为人工智能开辟了新的研究方向。联邦学习提供了一种新颖的训练方法,可以在不侵犯用户隐私的情况下构建个性化模型。联邦学习提供了一种隐私保护机制,可以有效地利用终端设备的计算资源来训练模型,防止隐私信息在数据传输过程中被泄露。

        联邦学习的主要特点是保证用户的隐私,主要通过交换经过加密处理的参数来保护用户隐私,而攻击者无法获取源数据。

        联邦学习根据数据的分布可以分为横向联邦学习、纵向联邦学习和联邦迁移学习。横向联邦学习适用于两个数据集的用户特征重叠较多,但用户重叠较少的情况;纵向联邦学习适用于在两个数据集的用户特征重叠较少,但用户重叠较多的情况下。在两个数据集的用户和用户特征都很少重叠的情况下,我们可以使用迁移学习来克服数据或标签的不足。

        联邦学习保证隐私的主要体现是用户对本地数据拥有完全的自主权,强调数据拥有者的隐私保护。联邦学习环境中的隐私保护机制主要有两类。一种常用的方法是使用同态加密、安全聚合等加密算法。另一种流行的方法是在模型参数中加入差分隐私的噪声。

1.2 联邦学习的挑战

        (1)隐私保护:由于联邦学习是为了解决机器学习中的隐私数据保护问题而提出的,因此必须保证联邦学习中的训练模型不泄露用户的隐私信息。

        (2)数据量不足:在分布式环境下,每个移动设备上的数据量不足。另一方面,集中收集所有数据会产生巨大的开支。因此,联邦学习需要每个设备使用本地数据来训练本地模型,然后将所有的本地模型上传到服务器上进行聚合得到全局模型。

        (3)统计异质性:联邦环境中存在大量的边缘设备,这些设备持有的数据可能是非独立同分布的

2. Related works

        联邦学习实际上是一种加密的分布式机器学习技术,参与者可以在不泄露底层数据的情况下构建模型,使得每个企业的自有数据不离开本地。通过加密机制下的参数交换,建立虚拟通用模型。在这样的机制下,各参与方可以成功的将数据孤岛连接起来,走向共同发展。

2.1 联邦学习的定义

        假设N个用户{U1,U2,……,Un},拥有自己的数据库{D1,D2,……,Dn},并且每个人都不能直接访问别人的数据来扩展自己的数据。

如图1所示,它包含三个基本步骤:

        (1)服务器向每个设备发送初始模型。

        (2)设备Ui不需要共享自己的源数据,而是可以用本地数据Di训练自己的模型Wi。

        (3)服务器聚合本地模型{W1,W2,...,Wn}形成W′,然后用其替换每个客户端的本地模型。

2.2 联邦学习的发展

        作为一种新的隐私保护框架,联邦学习并没有得到公众的充分理解。下面举例说明联邦学习的工作过程。假设有许多不同的企业想合作训练一个机器模型。根据GDPR准则,在没有各自用户同意的情况下,不能粗略地合并双方的数据。另一方面,企业可以根据本地数据训练机器学习模型。假设各方建立任务模型,但由于各自企业的数据有限且不完整,很难训练出理想的机器学习模型。联邦学习的目的就是为了解决这些问题。联邦学习保证各自企业的本地数据不外出。在不违反隐私保护法的原则下,通过加密机制在客户端和服务器之间交换参数,建立全局模型。

3. 联邦学习的分类

        总结了联邦学习在五个方面的分类:数据划分、隐私机制、适用的机器学习模型、通信架构和解决异构性的方法。为了便于理解,在表1中列出了这些分类的优点和应用。

3.1 数据划分

        根据数据样本空间和特征空间分布模式的不同,联邦学习可以分为三类:横向联邦学习、纵向联邦学习联邦迁移学习,如图2所示。

3.1.1横向联邦学习

横向联邦学习适用于两个数据集的用户特征重叠较多,但用户重叠较少的情况。

        横向联邦学习是将数据集横向分割(通过用户维度),然后取出数据中用户特性相同但用户不完全相同的部分用于训练。换句话说,不同行中的数据具有相同的数据特征(通过用户特征对齐)。因此,横向联邦学习可以增加用户样本量

        例如,在不同地区有分别有一个电影院,他们的用户组来自各自的地区,即顾客来自电影院所在的地区,彼此之间几乎没有重叠。然而,它们的业务非常相似,都是为顾客提供看电影的业务,因此记录的用户特性是相同的。

        如图,A是电影院A的数据集,B是电影院B的数据集,两个地区的用户几乎没有重叠(横向看代表用户),而纵向看发现用户有许多特征是重叠的。

        在横向联邦学习中,各方通常会计算并上传局部梯度,以便中央服务器可以将它们聚合到全局模型中。横向联邦学习中梯度的处理和通信可能会泄露用户的隐私信息。该问题的常见解决方案有同态加密、差分隐私安全聚合,可以保证水平联邦学习中切换梯度的安全性。

3.1.2 纵向联邦学习 

        纵向联邦学习适用于两个数据集的用户特征重叠很少,但用户重叠很多的情况下。

        纵向联邦学习将数据集纵向划分(按用户特征维度),然后取出用户相同但用户特征不完全相同的部分数据进行训练。换言之,不同列中的数据具有相同的用户(按用户对齐)。因此,纵向联邦学习可以增加训练数据的特征维度。

        如图,例如,有两个不同的机构,一个是一个地方的银行,另一个是同一个地方的电子商务公司。他们的用户组可能包括该地区的大多数居民,因此用户有更多的交集。但是,由于银行记录的是用户的收支行为和信用评级,而电子商务则保留了用户的浏览和购买历史,因此其用户特征几乎没有交集。

        纵向联邦学习是将这些不同的特征在加密状态下聚合,以增强模型的能力。目前,逻辑回归模型、树结构模型、神经网络模型等许多机器学习模型已经逐渐证明是基于这种联邦系统的。

3.1.3 联邦迁移学习 

        联邦迁移学习适用于两个数据集的用户和用户特征都很少重叠的情况下。

        例如,有两个不同的机构,一个是中国的电子商务,另一个是美国的社交应用。由于地域限制,两家机构的用户群体重叠较少。同时,由于机构类型的不同,两个数据集的数据特征仅有少部分重叠。在这种情况下,为了进行有效的联邦学习,必须引入迁移学习来解决单边数据规模较小和标签样本较少的问题,从而进行迭代学习。

        例如,医院放射科很难收集大量的X射线扫描来构建良好的放射诊断系统。这时,迁移学习将帮助我们完成其他相关但不同的任务,例如图像识别任务,以学习放射诊断系统。通过联邦迁移学习,我们不仅可以保证数据的隐私性,还可以将辅助任务的模型转移到director learning中,解决数据量小的问题。

3.2 隐私保护机制

        联邦学习最重要的特点是合作客户端可以在本地保留自己的数据,并且需要共享模型信息来训练目标模型,但是模型信息也会泄露一些私有信息。保护联邦隐私的常用手段有模型聚合、同态加密差分隐私

3.2.1 模型聚合(Model aggregation)

        模型聚合是联邦学习中最常见的隐私机制之一,它通过汇总各方的模型参数来训练全局模型,从而避免在训练过程中传输原始数据。 

        1. McMahan等人提出了一种基于迭代模型平均的深度网络联邦学习框架,该框架在每一轮更新中通过总结局部模型来训练全局模型。

        2. PATE方法基于知识的聚合,从由分离数据训练的Teacher模型转移到可以公开其属性的Student模型。PATE以黑盒的方式将多个训练过的模型与离散数据集结合在一起,这为训练数据的私密性提供了准确的保证。

        3. Yurochkin等人开发了神经网络联邦学习的贝叶斯非参数框架,该框架通过匹配局部模型中的神经元建立全局模型

        此外,联邦学习和多任务的结合允许多个用户局部训练不同任务的模型,这也是典型的模型聚合方法。在一些论文中,联邦学习和区块链相结合,基于区块链交换和更新每个设备的模型数据,最后,在区块链协议的保证下,对模型参数进行安全聚合。

3.2.2 同态加密(homomorphic encryption)

        一般的加密方案侧重于数据存储的安全性。没有密钥的用户不可能从加密结果中获取到任何关于原始数据的信息,也无法对加密数据进行任何计算操作,否则会导致解密失败。但是,同态加密可以解决一般加密数据的计算问题,因为它涉及数据处理的安全性。同态加密最重要的特点是用户可以对加密后的数据进行计算和处理,但在此过程中不会泄露任何原始数据。同时,拥有密钥的用户对处理后的数据进行解密,得到的结果恰恰是预期的结果。

        同态加密是联邦学习的锦上添花。使用联邦学习时,用户与服务器之间的梯度交换可能会泄露用户的隐私信息。同态加密可以很好地解决这个问题,它可以在不影响模型训练结果的情况下处理加密模型。

3.2.3 差分隐私(differential privacy)

        差分隐私是Dwork在2006年提出的一种新的隐私定义,用于解决统计数据库中的隐私泄露问题。在这种定义下,数据库的计算结果对特定记录的变化不敏感,数据集中的单个记录与否对计算结果的影响很小。因此,在数据集中添加记录导致的隐私泄露风险被控制在非常小且可接受的范围内,攻击者无法通过观察计算结果获得准确的个人信息

        在传统机器学习和深度学习的训练过程中,流行在梯度迭代过程中在输出中加入噪声来应用差分隐私,从而达到保护用户隐私的目的。

        在实践中,通常采用拉普拉斯机制和指数机制来实现差分隐私保护。围绕隐私保护和有效性这两个方面进行了大量的研究工作。增加更多的噪声将不可避免地影响有效性。实现隐私与有效性的平衡是目前最热门的研究方向。例如,差分隐私可以与模型压缩技术相结合,以最大限度地提高隐私优势,同时提高性能。

        差分隐私分为全局差分隐私局部差分隐私。两种差分隐私都可以保证ε-单个用户的差异化需求,但应用场景略有不同。

3.3 可应用的机器学习模型

        联邦学习正逐渐渗透到流行的机器学习模型中,旨在确保模型的隐私性和效率。我们主要考虑联邦学习支持的三种模型:线性模型、决策树神经网络

3.3.1 线性模型

        线性模型主要分为三类:线性回归、岭回归和Lasso回归。

        Du等提出了在联邦环境中训练线性模型的方法,解决了实体解析的安全问题,最终达到了与非私有解决方案相同的精度。

        Nikolaenko等设计了一种采用同态加密和Yao协议[45]的岭回归系统,获得了最佳性能。与其他模型相比,线性模型简单易实现,是实现联邦学习的有效模型。

3.3.2 树模型

        联邦学习可用于训练单个或多个决策树,例如梯度提升决策树和随机森林。

        梯度提升决策树(GBDT)算法是近年来被广泛提及的算法,这主要是由于其在许多分类和回归任务中表现出色。

        Zhao等首次在回归和二元分类任务中实现了GBDT隐私保护系统。系统将不同数据所有者训练的回归树安全地聚合到一个集合中,以防止泄露用户数据隐私。

        Cheng 等提出了一个名为 SecureBoost 的框架,该框架训练了水平和垂直分区数据的梯度提升决策树模型,并使用户能够建立联邦学习系统。

3.3.3 神经网络模型

        无人机可以在各种服务中发挥重要作用,例如轨迹规划、目标识别和目标定位。为了提供更高效的服务,UAV(无人机)组通常通过深度学习来训练模型,但由于无人机组与地面基站之间缺乏持续连接,集中训练方法无法发挥无人机的实时性

        Zeng等率先在无人机群上实现分布式联邦学习算法,联合功率分配和调度,优化联邦学习的收敛速度。该算法的主要步骤是将领先的无人机对其余无人机训练的本地飞行模型进行汇总,生成全局飞行模型,通过组内网络转发给无人机的其余部分

        Bonawitz等基于TensorFlow构建了可扩展的移动设备联邦学习系统,可以训练大量的分布式数据模型。

        Yang等建立了基于数据分区的联邦深度学习框架,以实现企业数据中的优先应用。除了企业数据应用外,政务大数据中的交通流信息往往包含大量的用户隐私。

        Liu等将用于交通流预测的GRU(Gated Recurrent Unit)神经网络与联邦学习相结合,提出了一种融合最优全局模型的聚类FedGRU算法,能够更准确地捕捉交通流数据的时空相关性。在真实数据集上的实验表明,其性能远优于非联邦学习方法。

        目前,联邦学习在机器学习模型中得到了广泛的应用,但随着机器学习的快速发展,提出实用高效的联邦学习任务仍然是一个挑战。

3.4 通信体系结构

        在分布式训练的设计中,所有远程设备都可以与中心服务器进行通信,并参与全局模型的更新。在联邦环境中,本地更新和客户参与的灵活性会影响整个模型的训练有效性。

        FedProx模型:该模型结合边缘设备数据进行分布式训练,并使用联邦平均模型优化方法来保证目标任务的鲁棒性和稳定性。联邦平均(FedAvg)是联邦学习中最常见的模型优化方法。此方法对本地上传的随机递减梯度数据进行平均,然后对其进行更新并将其分发回本地。在多任务学习中,FedAvg模型优化方法被证明具有良好的性能。

        为了解决联邦学习中模型更新通信成本过高的关键问题,Konecny等通过量化、随机旋转和二次采样的方法对模型数据进行压缩,以减轻中心服务器与所有用户之间的通信压力。 

        Caldas等采用有损压缩Federated Dropout来减少服务器到设备的通信。

        Sattler等提出了一种稀疏三元压缩协议,该协议在对非独立同分布数据进行联邦训练时收敛速度比联邦平均算法快。

        为了保护其数据隐私,解决NonIID数据的不平衡问题,Yang等提出了一种新的联邦平均算法,该算法通过计算不同设备的模型加权平均值来聚合全局模型。

3.5 解决异质性的方法

        在联邦学习的应用场景中,设备的差异会使整个训练过程低效率。为了解决系统异质性问题,有异步通信、设备采样、容错机制模型异质四种方法。

3.5.1 异步通信

        在传统的数据中心设置中,基于并行迭代优化算法的常用方案有两种:同步通信和异步通信。但是,在面对设备的多样性时,同步方案很容易受到干扰,因此在联邦学习多设备环境中,异步通信方案可以更好地解决设备分散的问题。

        Duchi等利用数据的稀疏性研究了并行和异步算法,可以较好地解决训练设备的异质性问题。在内存共享系统中,异步方案很好地解决了设备异质性的问题。尽管异步更新在分布式系统中取得了良好的收益,但设备通信延迟的问题加剧了设备异质性的缺点。在联邦学习过程中,由于实时通信的必要性,按照异步通信的方案解决系统的异构性是首选。

3.5.2 设备采样

       在联邦学习中,并非每个设备都需要参与每个迭代训练过程。在一些联邦学习场景中,选择设备参与训练,而在场景的另一部分,设备主动参与训练。

         Nishio等提出了一种新的协议FedCS,以解决资源受限的客户端选择问题,在训练过程中增加了更多的客户端,提高了模型的性能。

        Kang等设计了一种基于契约理论的激励机制,鼓励具有高质量数据的本地设备积极参与有效的联邦学习过程,提高学习准确率。

        Qi等设计了一种基于联邦学习的新闻推荐模型,该模型还随机选择用户的局部梯度上传到服务器进行全局模型训练。

        Wang等提出了一种名为Pulling Reduction with Local Compensate(PRLC)的新方法,该方法基于联邦学习实现端到端通信。PRLC的主要思想是,在每次迭代中,只有部分设备参与模型更新,未参与的设备通过PRLC方法进行本地更新,以缩小与全局模型的差距。最后,证明了PRLC方法在强凸性和非凸性情况下的收敛率与未压缩方法的收敛率相同,具有更好的扩展性。

3.5.3 容错机制

       在不稳定的网络环境中,容错机制可以防止系统崩溃,尤其是在分布式环境中。当多个设备协同工作时,一旦出现设备故障,就会影响其他设备。

        Wang等以联邦学习方法为重点,提出了一种控制算法,以确定局部更新和全局参数聚合之间的最佳权衡,以适应设备资源的限制。

        Yu等通过减少通信改进了分布式随机梯度下降算法的线性加速度特性

        也有一些论文直接忽略了设备的参与,这并不影响联邦学习在多任务学习中的效率。

        容忍设备故障的另一种选择是通过编码计算引入算法冗余。移动设备上的错误数据可能会导致联邦学习中的欺诈行为。Kang等通过引入声誉作为指标,引入区块链作为声誉管理方案,提出了一种基于可靠人员选择的联邦学习方案,可以有效防止恶意攻击和篡改。

3.5.4 模型异质

        当从多方设备收集分布不均匀的数据来训练联邦模型时,会严重影响模型的最终效率。合理处理来自不同设备的数据对联邦学习具有至关重要的影响。为了解决统计数据异质性问题,联邦学习网络主要分为三种建模方法:(a)单个设备有自己的模型;(b) 训练适合所有设备的全局模型;(c) 为任务训练相关的学习模型。

        Yu等提出了一个仅使用正标签进行训练的通用框架,即Federated Averaging with Spreadout(FedAwS),其中服务器在每次迭代后添加一个几何正则化器,以促进类在嵌入空间中分散。然而,在传统训练中,用户也需要使用负标签,这大大提高了训练效率,保证了分类任务的准确性。

        Zhao等通过在边缘设备之间训练一小部分数据来构建全局模型,以提高Non-IID数据的训练精度。

        Khodak等在统计学习的背景下设计并实现了自适应学习方法,提高了小样本学习和联邦学习的性能。

        Eichner等考虑了全局模型和特定设备之间的快速数据自适应训练,以解决联邦训练过程中的数据异质性问题。

        Corinzia等提出了一种名为VIRTUAL的联邦学习算法,该算法将中央服务器和客户端的联邦网络视为贝叶斯网络,并使用近似变分推理在网络上进行训练,在联邦学习真实数据集上表现出最先进的性能。与以前的方法不同,重心偏向于局部或全局模型。

        Liang等提出了一种将局部表示学习与全局模型联邦训练相结合的局部全球联邦平均(LG-FEDAVG)算法。理论分析表明,局部模型和全局模型的结合降低了数据方差,减小了设备方差,提高了模型在处理异构数据时的灵活性。实验表明,LG-FEDAVG可以降低通信成本,处理异构数据,并有效地学习模糊保护属性的公平表示。

4. 应用

4.1 服务推荐

4.1.1 谷歌键盘

        谷歌于 2016 年启动了一个项目,在 Android 移动用户中建立联邦学习 ,以提高键盘输入预测的质量,同时确保用户的安全和隐私。语言模型的发展也将促进推荐系统的发展。结合联邦学习,可以扩展到其他推荐应用。当用户提出请求时,模型可以快速提供后续建议。

4.1.2 智能医疗诊断系统

        由于对患者隐私的保护,收集分散在各个医院的医疗数据变得非常困难。因此,医疗数据成为稀缺资源。人工智能的发展给医疗资源配置和疾病诊断带来了革命性的变化。然而,在数据的收集和处理方面存在安全挑战,例如泄露患者的私人数据。

        Cohen等根据患者的隐私需求,分析了现有的法律和道德挑战,并讨论了未来如何在不泄露隐私的情况下更好地利用患者数据。数据量太少和标签不足是医疗数据面临的两个问题,现有的联邦迁移学习可以解决这些问题。

        Lee等利用互联医疗系统整理健康结果数据和纵向真实数据,设计并实现基于APOLLO网络的集成多联邦学习网络,将真实世界数据转化为医学诊断证据,协助医生对患者进行前瞻性诊断。

4.2 无线通信

        对于无线通信来说,早期基于传统模型的方法已经不再适合现有日益复杂的无线网络,深度网络的普及也为无线网络模型的建立带来了新的方向。

        Niknam等将联邦学习的重要功能应用于边缘计算、5G网络等无线通信领域,并进行了详细分析。然后对标准数据集进行仿真,以证明联邦学习在无线通信领域的可用性和安全性。Mohammad等研究了联邦学习在无线网络和边缘计算中的应用,并借助远程参数服务器,通过自身各设备的数据集建立了联邦模型。Tran等设计并实现了基于光波功率的联邦学习模型,这是一种应用于物理层的新方法,通过资源分配来管理网络,以实现最高的传输效率。然而,噪声问题总是难以解决,因此Ang等提出了一种针对无线通信噪声的鲁棒联邦学习算法。他们将聚合过程和广播过程中的噪声问题简化为基于预期模型和最坏情况模型的并行优化问题。相应的优化问题可以通过SLA(Service-Level Agreement)算法和基于采样的SCA(Service Component Architecture)算法来实现。实验结果表明,该算法在提高预测精度、减少损失方面取得了良好的效果。

        通过联邦学习的训练过程,我们不仅可以在不共享自己的私有数据的情况下获得良好的全局模型,还可以减轻设备的通信负担。Nguyen等将联邦学习应用于智能家居中的无线物联网系统,提高了攻击检测的准确性,提高了通信效率。Savazz等提出了一种面向5G无线网络联邦学习应用的Serverless学习方法,该方法通过对每个设备的局部梯度迭代计算和基于一致性的方法共享模型参数。Abad等设计了一种面向无线异构蜂窝网络(HCN)的分层联邦学习框架,采用梯度稀疏和周期平均的方法,提高了模型的通信效率。

5. 挑战和未来工作

5.1 挑战

5.1.1 隐私保护 

        在联邦学习中,隐私保护是一个主要问题。联邦学习通过与服务器交换模型梯度而不是原始数据来保护每个设备上的私有数据。但是,整个训练过程中的模型通信也可能将敏感信息泄露给第三方,例如模型的反向演绎。虽然最近有一些方法可以提高数据的隐私性,但这些方法都增加了计算的复杂性,增加了联邦网络的计算负担。为了进一步有效保护隐私数据的安全,我们需要寻找新的方法来防止隐私数据在模型传输过程中被泄露。

5.1.2 通信成本

        在联邦学习中,通信是一个关键的瓶颈。事实上,一个联邦网络可能由大量的设备组成,例如数以百万计的远程移动设备。联邦学习模型的训练可能涉及大量的通信。此外,网络中的通信速度无法保证,因此联邦学习的通信成本非常值得考虑。因此,为了使联邦学习实用化,有必要开发具有高通信效率的方法。

5.1.3 系统异质性

        由于硬件和网络连接不同,联邦网络中各设备的计算和通信能力可能不同。网络中同时活跃的设备通常只占很小的一部分。例如,一个数以百万计的设备网络有时只有数以百计的活跃设备。每个设备也可能是不可靠的,因此这些系统的异质性大大加剧了容错的挑战。因此,联邦学习方法必须容忍异构硬件,并对网络中的离线设备具有鲁棒性。

5.1.4 不可靠的模型上传

        在联邦学习中,移动节点可能有意或无意地误导服务器聚合全局模型。对于蓄意行为,攻击者可能发送恶意的模型参数来影响全局模型的聚合,从而造成模型训练的错误。另一方面,不稳定的移动网络环境可能会导致移动设备出现一些意想不到的行为,如上传一些低质量的模型,对联邦学习产生不利影响。因此,对于联邦学习而言,抵御这种不可靠的本地模型上传至关重要。

5.2 未来工作

5.2.1 隐私的限制

        事实上,由于网络中各类设备的异质性,其隐私限制具有各自不同的特点,因此需要对批量设备的隐私限制进行更详细的定义,以保证特定样本的隐私性保证,能够提供较强的隐私性。开发基于特定设备隐私限制的隐私保护方法是未来工作的一个有趣且持续的方向。

5.2.2 通信成本和计算成本之间的权衡

        高通信效率主要可以考虑两个方面:迭代发送小消息,或者减少通信总轮数。例如,我们可以使用模型压缩技术来减少联邦学习中的数据规模。在减少通信轮数方面,可以根据重要性对需要通信的模型进行筛选。我们也可以将这两种方法结合起来,这样可以大大降低移动设备与服务器之间的通信成本,但同时也增加了一定的计算压力。寻找通信代价和计算压力之间的折中是未来工作的主要方向。

5.2.3 多中心联邦学习

        异质性的挑战阻碍了联邦学习。最近的一些研究表明,如果能够预先获得系统中设备的异质性,则可以根据异质性对所有移动设备进行分组,并为每个分组分配一个本地中心服务器。我们可以先聚合一组相似异质的设备模型,然后发送到服务器,聚合成一个全局模型。研究多中心联邦学习解决异构挑战是未来工作的一个很有前景的方向。

5.2.4 可靠的客户端选择

        在联邦学习中,移动设备可能上传不可靠的数据,导致服务器无法聚合全局模型。因此,在联邦学习任务中寻找可信可靠的客户端至关重要。引入信誉度的概念作为度量客户端可靠性的指标。因此,我们可以在每轮模型更新的过程中选择一个高可靠性的客户端来保证联邦学习的可靠性。基于该方法的可靠联邦学习的改进是未来一个深远的研究方向。

6. 总结

        随着大数据和人工智能的发展,公众对隐私的要求越来越严格。因此,联邦学习应运而生,这是一种跨平台隐私保护的新解决方案。联邦学习作为一种可以实际使用的模型,强调数据隐私和数据安全时,已经被越来越多的研究人员和企业所接受。一方面,如果用户因为数据不足而无法训练出满意的模型,联邦学习可以在不暴露原始数据的情况下聚合多方用户模型并更新集成模型。另一方面,当用户没有足够的数据标签进行学习时,联邦学习不仅可以为他们提供安全的模型共享机制,还可以将模型迁移到特定任务中,解决数据标签不足的问题。本文介绍了联邦学习的基本定义、相关技术和具体分类,然后讨论了联邦学习的实际应用场景,梳理了联邦学习目前面临的挑战和未来的研究方向。相信在不久的将来,联邦学习可以为更多的应用提供安全、共享的安全服务,推动人工智能的稳定发展。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值