未来金融行业建模趋势：联邦迁移学习

看过这篇文章后，觉得联邦学习是金融行业未来建模趋势，转载在这里，分享给大家

人工智能在最近的一两年来是一个炙手可热的词汇。AI在图像分类、语音识别、文本分析、计算机视觉、自然语言处理、自动驾驶等方面，大量的人工智能和机器学习模型确实在让我们的生活变得更加方便快捷。从技术上讲，目前绝大多数的AI，其实都是基于统计学的一些机器学习方法在发挥作用。而机器学习的核心，则是强调让算法能够自动地基于给定的数据学习模型。到目前为止，这套方案运行完美，只要有足够的权限访问数据，几乎可以预见到，在不远的将来，我们将全面实现AI化。

然而，欧盟在几个月前颁布了《一般数据保护条例》（简称为GDPR）。该条例是近三十年来数据保护立法的最大变动，旨在加强对欧盟境内居民的个人数据和隐私保护。法案强调，机器学习模型必须具有可解释性（我们都知道Google的AutoML很好用，但是欧盟此举相当于宣告了AutoML的不适用），而且对于收集用户数据，必须公开、透明。

很快，擅长收集用户隐私的Facebook和谷歌等美国企业成为GDPR法案下第一批被告。虽然全球其他国家和地区尚未出台类似法案，但是可想而知，大家对数据隐私越来越看重。那么问题来了：没有权限获取到足够的用户数据，企业如何进行建模？

很自然地，我们想到可以用迁移学习进行。比如，A公司有一些自己用户的数据，那么就可以和B公司的数据一起协同建模。然而，由于隐私法案的保护，使得两家公司之间，彼此不互通。这个情形可以用下面的图来形象地解释：理想很丰满，现实却很骨感。各个公司就好比一个个数据的孤岛，由于隐私法案的限定，在人工智能的汪洋大海中，茕茕孑立，形影相吊。

联邦迁移学习

事实上，Google等一些大公司也最先开始了一些关于联邦学习的研究。例如，Google在2017年的一篇论文里进行了去中心化的推荐系统建模研究。其核心是，手机在本地进行模型训练，然后仅将模型更新的部分加密上传到云端，并与其他用户的进行整合。目前该方法已在Google输入法中进行实验。一些研究者也提出了CryptoDL深度学习框架、可扩展的加密深度方法、针对于逻辑回归方法的隐私保护等。但是，它们或只能针对于特定模型，或无法处理不同分布数据，均存在一定的弊端。

正是为了解决上述这些挑战，香港科技大学杨强教授和微众银行AI团队，最近提出了联邦迁移学习 (Federated Transfer Learning, FTL)。FTL将联邦学习的概念加以推广，强调在任何数据分布、任何实体上，均可以进行协同建模学习。

这项工作在国内，是杨教授与微众银行AI团队主导，目的是建立数据联邦，以解决大数据无法聚合的问题。在国外，目前是Google在进行相关的研究。二者的区别：微众银行AI团队的做法是，用户维度部分重叠，特征维度不重叠；而Google则是反过来：特征重叠，用户不重叠。

可以预见的是，微众AI团队针对的情景，要比Google的情景更加具有普适性，也更符合未来大数据、多企业的应用需求。下图展示了FTL的应用情景。

图：联邦迁移学习示意图。来源：杨强教授演讲胶片

解释：假设我们现有的A和B两个企业的数据，它们的服从上图的特征和样本维度。当A和B处于同一样本维度、不同特征维度时，我们可以用联邦学习；当A和B处于同一特征维度、不同样本维度时，我们就可以用迁移学习；二者的结合点则是：不同样本、不同特征维度。

具体地，可以扩展已有的机器学习方法，使之具有FTL的能力。比如，我们可以将不同企业、不同来源的数据首先训练各自的模型，然后，将模型数据进行加密，使之不能直接传输以免泄露用户隐私。然后，在这个基础上，我们对这些模型进行联合训练，最后得出最优的模型，再返回给各个企业。

联邦迁移学习使得不同企业之间，第一次有了可以跨领域挖掘用户价值的手段。

比如中国移动，它有着海量的用户通话信息，但是，它缺少了用户的购买记录和事物喜好等关键信息。它就无法更加有针对性地推销自己的产品。而另一方面，一个大型的连锁超市，比如家乐福，它存有大量的用户购买信息，但是没有用户的行为轨迹。我们能不能应用联邦迁移学习的思想，在不泄露用户隐私的前提下，进行中国移动和家乐福的联邦学习，从而提高二者产品的竞争力？
联邦迁移学习 vs 迁移学习 vs 多任务学习

从字面意思上看，FTL和迁移学习和多任务学习具有很强的相关性。它们的区别是：

多任务学习和FTL都注重多个任务的协同学习，最终目标都是要把所有的模型变得更强。但是，多任务学习强调不同任务之间可以共享训练数据，破坏了隐私规则；而FTL则可以在不共享隐私数据的情况下，进行协同的训练。

迁移学习注重知识从一个源领域到另一个目标领域的单向迁移。而这种单向的知识迁移，往往伴有一定的信息损失：因为我们通常只会关注迁移学习在目标领域上的效果，而忽略了在源领域上的效果。FTL则从目标上就很好地考虑了这一点：多个任务之间协同。

当然，迁移学习和多任务学习都可以解决模型和数据漂移的问题，这一点在FTL中也得到了继承。
联邦迁移学习系统

好了，现在有了学习的基本思路，我们就可以将已有机器学习方法，如决策树、森林、深度模型等，扩展到FTL的框架中了。学习的问题算是得到了解决。

还有一个问题：涉及到了隐私保护，谁来监管？数据放在哪里？

答案指向了另一个炙手可热的领域：区块链。为了构建可信的联邦迁移学习系统，各个企业应当在遵循法律法规的基础上，按照各参与方理解一致的共识机制，构建基于区块链的运营组织。区块链使得信息的存储变得去中心化，从而避免了信息泄露和伪造。
展望：联邦迁移学习的潜力

联邦迁移学习是一种新的学习模式。我们以FTL的思想为基础，打造FTL的生态系统。

从社会需求来看，FTL迎合了人们对于隐私保护的要求，使得隐私数据变得更安全，这也是我们所喜闻乐见的。

因此，对数据隐私的保护非常看重的企业，可以用FTL来打造联邦学习的联盟。比如金融业和银行业，就可以用FTL的框架为武器，打造多个企业之间的“联盟”。大家在不泄露隐私的条件下，实现彼此模型的正向生长，从而更好地为客户服务。

References
[1] 杨强：GDPR对AI的挑战和基于联邦迁移学习的对策 https://zhuanlan.zhihu.com/p/42646278
[2] 机器之心专访杨强教授 https://zhuanlan.zhihu.com/p/41052548
[3] 欧盟GDPR介绍 https://zhuanlan.zhihu.com/p/31978253
[4] 联邦学习 https://zhuanlan.zhihu.com/p/31978253

来源：https://zhuanlan.zhihu.com/p/43662982