本文出自微众银行AI项目组对于联邦学习介绍的白皮书,网址:https://www.fedai.org/
文章目录
一、联邦学习背景和重要性
1.人工智能发展概况
数据源之间存在着难以打破的壁垒,一般情况下人工智能的所需要的数据会涉及多个领域,例如在基于人工智能的产品推荐服务中,产品销售方拥有产品的数据、用户购买商 品的数据,但是没有用户购买能力和支付习惯的数据。在大多数行业中,数据是以孤岛的形式存在的,由于行业竞争、隐私安全、行政手续复杂等问题,即使是在同一个公司的不同部门之间实现数据整合也面临着重重阻力,在现实中想要将分散在各地、各个机构的数据进行整合几乎是不可能的,或者说所需的成本是巨大的。
2.GDPR与人工智能挑战
随着大数据的进一步发展,重视数据隐私和安全已经成为了世界性的趋势。 每一次公众数据的泄露都会引起媒体和公众的极大关注,例如最近 Facebook 的数据泄露事件就引起了大范围的抗议行动。同时各国都在加强对数据安全和隐私的保护,欧盟最近引入的新法案《通用数据保护条例》(General Data Protection Regulation, GDPR表明,对用户数据隐私和安全管理的日趋严格将是世界趋势。这给人工智能领域带来了前所未有的 挑战,研究界和企业界目前的情况是收集数据的一方通常不是使用数据的一方,如 A 方收集数据,转移到B方清洗,再转移到C方建模,最后将模型卖给D方使用。这种数据在实体间转移,交换和交易的形式违反了GDPR,并可能遭到法案严厉的惩罚。在这个问题上,人工智能的学界和企业界,目前暂无较好的解决方案来应对这些挑战。
3.联邦学习成为可行的解决方案
如何在满足数据隐私、安全和监管要求的前提下,设计一个机器学习框架,让人工智能 系统能够更加高效、准确的共同使用各自的数据,是当前人工智能发展的一个重要课题。我们倡议把研究的重点转移到如何解决数据孤岛的问题。我们提出一个满足隐私保护和数据安全的一个可行的解决方案,叫做联邦学习。
联邦学习的特点是:
- 各方数据都保留在本地,不泄露隐私也不违反法规;
- 各个参与者联合数据建立虚拟的共有模型,并且共同获益的体系;
- 在联邦学习的体系下,各个参与者的身份和地位相同;
- 联邦学习的建模效果和将整个数据集放在一处建模的效果相同,或相差不大;
- 迁移学习是在用户或特征不对齐的情况下,也可以在数据间通过交换加密参数达到知识迁移的效果。