联邦学习介绍

背景

当今是大数据(Big Data)时代,而大数据正是人工智能(Artificial Intelligence,AI)应用蓬勃发展的“燃料”。事实却是,我们面对的数据常常既是小规模,又是碎片化的。同时数据源之间存在着难以打破的堡垒,一般情况下人工智能的所需要的数据会涉及多个领域,例如在基于人工智能的产品推荐服务中,产品销售方拥有产品的数据、用户购买商品的数据,但是没有用户购买能力和支付习惯的数据。在大多数行业中,数据是以孤岛的形式存在的,由于行业竞争、隐私安全、行政手续复杂等问题,即使是在同一个公司的不同部门之间实现数据整合也面临着重重阻力,在现实中想要将分散在各地、各个机构的数据进行整合几乎是不可能的,或者说所需的成本是巨大的。
另一方面,随着大数据的进一步发展,重视数据隐私和安全已经成为了世界性的趋势。每一次公众数据的泄露都会引起媒体和公众的极大关注,例如最近Facebook的数据泄露事件就引起了大范围的抗议行动。同时各国都在加强对数据安全和隐私的保护,欧盟2018年正式施行的法案《通用数据保护条例》(General Data Protection Regulation, GDPR)表明,对用户数据隐私和安全管理的日趋严格将是世界趋势。这给人工智能领域带来了前所未有的挑战,研究界和企业界目前的情况是收集数据的一方通常不是使用数据的一方,如A方收集数据,转移到B方清洗,再转移到C方建模,最后将模型卖给D方使用。这种数据在实体间转移,交换和交易的形式违反了GDPR,并可能遭到法案严厉的惩罚。同样,中国在2017年起实施的《中华人民共和国网络安全法》和《中华人民共和国民法总则》中也指出网络运营者不得泄露、篡改、毁坏其收集的个人信息,并且与第三方进行数据交易时需确保拟定的合同明确约定拟交易数据的范围和数据保护义务。这些法规的建立在不同程度上对人工智能传统的数据处理模式提出了新的挑战。在这个问题上,人工智能的学界和企业界,目前并无较好的解决方案来应对这些挑战。
要解决大数据的困境,仅仅靠传统的方法已经出现瓶颈。两个公司简单的交换数据在很多法规包括GDPR是不允许的。用户是原始数据的拥有者,在用户没有批准的情况下,公司间不能交换数据。其次数据建模使用的目的,在用户认可前不可以改变。所以,过去的许多数据交换的尝试,例如数据交易所的数据交换,也需要巨大的改变才能合规。同时,商业公司所拥有的数据往往有巨大的潜在价值。两个公司甚至公司间的部门都要考虑利益的交换,在这个前提下,往往这些部门不会吧数据与其他部门做简单的聚合这将导致即使在同一个公司内,数据也往往以孤岛形式出现。
如何在满足数据隐私、安全和监督要求的前提下,设计一个机器学习框架,让人工智能系统能够更加高效、准确地共同使用各自的数据,是当前人工智能发展的一个重要课题。在这样的环境中,联邦机器学习(FederatedMachine Learning),或者简称为联邦学习(FederatedLearning),作为一种行之有效的解决方案引起了人们的广泛关注。联邦学习既能帮助多个参与方搭建共享的高性能模型,又符合用户隐私和数据保密性的要求。
除了保护用户隐私和数据安全,联邦学习的另一发展动机是为了最大化地利用云系统下终端设备的计算能力。如果只在设备和服务器之间传输计算结果而不是原始数据,那么通信将会变得极为高效。人造卫星能够完成绝大部分的信息收集计算,并只需使用最低限度的信道与地面计算机通信。联邦学习通过交换中间计算结果即可在多台设备和计算服务器之间进行同步。

联邦学习概述

联邦机器学习是一个机器学习框架,能有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下,进行数据使用和机器学习建模。联邦学习作为分布式的机器学习范式,可以有效解决数据孤岛问题,让参与方在不共享数据的基础上联合建模,能从技术上打破数据孤岛,实现AI协作。
联邦学习定义了机器学习框架,在此框架下通过设计虚拟模型解决不同数据拥有方在不交换数据的情况下进行协作的问题。虚拟模型是各方将数据聚合在一起的最优模型,各自区域依据模型为本地目标服务。联邦学习要求此建模结果应当无限接近传统模式,即将多个数据拥有方的数据汇聚到一处进行建模的结果。在联邦机制下,各参与者的身份和地位相同,可建立共享数据策略。
联邦学习有三大构成要素:数据源、联邦学习系统、用户。在联邦学习系统下,各个数据源方进行数据预处理,共同建立及其学习模型,并将输出结果反馈给用户。

联邦学习发展简介

在计算机科学和机器学习的发展史中,联邦学习的概念曾多次以不同的形式出现过,例如,面向隐私保护的机器学习(Privacy-PreservingMachine Learning)、面向隐私保护的深度学习(Privacy-PreservingDeep Learning)、协作式机器学习(Collaborative Machine Learning)、协作式深度学习(Collaborative Deep Learning)、分布式机器学习(Distributed Machine Learning)、分布式深度学习(Distributed Deep Learning)、联邦优化(Federated Optimization)和面向隐私保护的数据分析(Privacy-Preserving Data Analytics)。
谷歌在2016年发表于arXiv上的论文里提出了联邦学习概念。从此,大量的相关研究背不断地发表在arXiv上,联邦学习已经成为了人工智能社区里一个非常活跃的研究领域。
在实际中,孤岛数据具有不同分布的特点,根据这些特点,提出了相对应的联邦学习方案。根据参与各方数据源分布的情况不同,联邦学习主要分为三类:横向联邦学习、纵向联邦学习、联邦迁移学习。
横向联邦学习是在两个数据集的用户特征重叠较多而用户重叠较少的情况下,把数据集按照横向(即用户维度)切分,并取出双方用户特征相同而用户不完全相同的那部分数据进行训练。比如有两家不同地区的银行,它们的用户群体分别来自各自所在的地区,相互的交集很小。但是,它们的业务很相似,因此,记录的用户特征是相同的。此时,可以使用横向联邦学习来构建联合模型。谷歌在2016年提出了一个针对安卓手机模型更新的数据联合建模方案:在单个用户使用安卓手机时,不断在本地更新模型参数并将参数上传到安卓云上,从而使特征维度相同的各数据拥有方建立联合模型。
纵向联邦学习是在两个数据集的用户重叠较多而用户特征重叠较少的情况下,把数据集按照纵向(即特征维度)切分,并取出双方用户相同而用户特征不完全相同的那部分数据进行训练。比如有两个不同的机构,一家是某地的银行,另一家是同一个地方的电商。它们的用户群体很有可能包含该地的大部分居民,因此用户的交集较大。但是,由于银行记录的都是用户的收支行为与信用评级,而电商则保有用户的浏览与购买历史,因此它们的用户特征交集较小。纵向联邦学习就是将这些不同特征在加密的状态下加以聚合,以增强模型能力。目前,逻辑回归模型、树型结构模型和神经网络模型等众多机器学习模型已经逐渐被证实能够建立在此联邦体系上。
联邦迁移学习是在两个数据集的用户与用户特征重叠都较少的情况下,我们不对数据进行切分,而可以利用迁移学习来克服数据或标签不足的情况。比如有两个不同机构,一家是位于中国的银行,另一家是位于美国的电商。由于受地域限制,这两家机构的用户群体交集很小。同时,由于机构类型的不同,二者的数据特征也只有小部分重合。在这种情况下,要想进行有效的联邦学习,就必须引入迁移学习,来解决单边数据规模小和标签样本少的问题,从而提升模型的效果。
对现有的机器学习模型在联邦学习场景下进行讨论,已经成为一个新的研究方向。例如,将联邦学习和强化学习结合起来,当各参与方更新本地模型时,将在共享信息中加入高斯差值,以此来保护数据和模型的隐私安全。另外,联邦学习被应用于计算机视觉领域、自然语言处理和推荐系统领域,以实现面向隐私保护的人工智能应用。

未来趋势

经典的联邦学习是基于存储在数以千万计的远程客户端设备中的全局数据学习模型,在训练模型参数过程中,客户端设备需要定期与中央服务器通信。当前,联邦学习的发展未来趋势可以概述为以下四个方面:
(1) 解决通信费用高问题。在联邦学习问题中,原始数据被本地存储在远程客户端设备中,需要与中心服务器不断交互,才能完成全局模型的构建(包括参数训练等)。一般来说,整个联邦学习网络可能包含数量庞大的终端设备(即客户端),因此很容易造成较高的通信成本,该问题称为联邦学习的关键瓶颈。
(2) 对非独立同分布数据特征的异构性数据进行建模、分析和评估。终端设备通常以不同的分发方式在网络上生成、处理和收集数据,跨终端设备的数据体量和特征可能会有很大差异。因此,联邦学习网络架构中的数据是非独立同分布的。然而,主流的机器学习和人工智能算法主要基于数据独立同分布假设。因此,如何对非独立同分布数据特征的异构性数据进行建模、分析和评估,是联邦学习进一步推广所必须解决的关键问题。
(3) 解决系统异构性的影响。由于硬件条件(CPU、内存等)、网络连接(3G、4G,5G、WIFI等)和供电(电池电源)的变化,联邦学习网络架构中每个终端设备的存储、计算和通信功能可能会有所不同,联邦学习网络体系架构和终端设备本身的局限性可能导致仅有部分设备在特定时间处于活动状态。此外,与边缘计算所面临的困难一样,数量庞大的终端设备需要特定的空间和环境来部署电力供应资源,因此联邦学习络架构中的终端设备可能会出现电源故障、网络访问故障和其他紧急情况,从而导致瞬时无法连接。这种异构的系统架构会影响联邦学习的整体效能。
(4) 隐私保护。联邦学习共享模型参数更新(例如梯度信息、参数特征等),而不是客户端设备中的原始数据(终端设备中的原始数据依然存储在终端设备中),因此在数据隐私保护方面,联邦学习优于其他分布式学习方法。虽然拥有该优势,但是在训练过程中仍然存在将敏感信息暴露给第三方或中央服务器的风险,因此隐私保护依然是联邦学习的主要关注点。
(5) 联邦“生态”。联邦学习国际标准的制定将进一步为其在各行业中的应用提供一个标准化的系统。未来在统一技术标准的基础上,社会各界将建立“联邦”生态,促进联邦学习发挥更大的效能,进而为人工智能产业的发展开辟新的方向。
联邦学习作为能够在不违反隐私和安全的前提下,使用分散于多方的数据来构建共享和定制化模型的一种创新的建模机制,在诸多领域都有广阔的应用前景,如电子商务、金融、医疗、教育、城市计算、智慧城市、边缘计算、物联网、区块链以及第5代(5G)移动网络等。

参考文献

[1] 杨强,刘洋,陈天健等. 联邦学习[J]. 中国计算机学会通讯,2018,11(14):49-55.
[2] LIU Y,YANG Q,CHEN T,et al.Tutorial on fedrated learning and transfer learning for privacy,security and confidentiality[C].In Proc.of the 33rd AAAI Conference on Artifical Intelligence(AAAI’19),2019.
[3] PHONG L T, AONO Y, HAYASHI T, et al. Privacy-preserving deep learning viadditively homomorphic encryption[J]. IEEE Transactions on Information Forensics and Security, 2018, 13(5):1333-1345.
[4] MCMAHAN H B,MOORE E,RAMAGE D,et al. Communication-efficient learning of deep networks from decentralized data[A/OL]. arXiv.org (2016-02-28).https://arxiv.org/abs/1602.05629.
[5] PHONG L T,PHUONG T T. Privacy-preserving deep learning via weight transmission[A/OL].arXiv.org(2019-02-12).https://arxiv.org/abs/1809.03272.
[6] CHENG K,FAN T,JIN Y,et al.Secureboost:A lossless fedrated learning framework[A/OL]. arXiv.org(2019-01-25).http:// arxiv.org/abs/1901.08755.
[7] LIU Y,CHEN T,YANG Q.Secure fedrated transfefr learning[A/OL]. arXiv.org(2018-12-08).http://arxiv.org/abs/1812.03337.
[8] PREUVENEERS D,RIMMER V,TSINGENOPOULOS I,et al.Chained anomaly detection models for federated learning:An intrusion detection case study[J].Applied Sciences,2018,8(12):1-21.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值