联邦学习(Federated Learning)作为人工智能的一个新分支,为机器学习的新时代打开了大门。自发展以来,其定义早已超过了早期提出范围,以至于现在只要出于隐私保护目的的多方机器学习都将其归属于「联邦学习」这一范畴。也有人对「联邦学习」这一名称提出异议,本文从实际应用的角度重新梳理了「联邦学习」的前世今生,希望能为读者提供一个新的联邦学习研究视角。
联邦学习的发展脉络
目前,国内对联邦学习(Federated Learning,简称FL)的发展脉络一般从两个视角进行梳理:
一是从联邦学习的工程落地时间线进行研究;二是从联邦学习中采用的技术发展时间线进行研究。
一般而言,前者认为联邦学习概念始于2016年由谷歌首次提出[1],并于2018年使用联邦学习平台训练递归神经网络(RNN)用于智能手机虚拟键盘下一词预测[2]。随后国内引入联邦学习概念,并将其系统归纳为横向联邦学习、纵向联邦学习、迁移学习、混合联邦学习等,与此同时出现了FATE、Angel PowerFL、PaddelFL、InsightOne等工业级应用产品。
该发展脉络以各企业的产品应用落地为时间节点,适合初学者了解联邦学习的基础概念、主体架构和发展状况。但由于其发展年限较短,且范围较窄,不太适合算法研究者以此脉络进行原理学习和算法创新。
谷歌联邦学习平台训练神经网络
另一条时间线梳理了联邦学习中关键技术(如同态加密、多方安全计算)的发展:从1978年非对称加密RSA的出现[3]和同态加密概念的首次提出[4],到半同态加密系统的落地(如pallier[5])及2009年实现的首个全同态加密算法[6],现如今更是有各式各样同态加密的算法库可供选择(HElib[7]、SEAL[8])。
同时多方安全计算涉及的技术细节就更加丰富了,开始于1982年姚期智教授提出的百万富翁问题,涉及了秘密共享(SS)、混淆电路(GC)、不经意传输(OT)等多种安全计算协议,这里就不再详细展开。
这些技术最终与机器学习相结合,产生了联邦学习的概念。由此可见,这一脉络涉及了密码学领域的方方面面,需要研究者有很好的数学和密码学基础,进行深入的研究。
联邦学习与隐私保护计算
在数据隐私安全保护和破解数据孤岛双重需求的背景下,联邦学习应时