什么是联邦学习
联邦学习(federated learning)能够让AI算法借助位于不同站点的数据中获得经验。
该方法能够让多个组织协作开发模型,而且不需要彼此之间直接共享敏感的数据
在多次训练迭代过程中,共享模型所覆盖的数据范围会比任何一个组织内部拥有的数据都要大得多。
联邦学习如何工作
难点:
不仅仅是数据量的问题,数据集还需要极高的多样化。但是考虑到隐私性,这些数据一般无法共享。
解决办法:
联邦学习摒弃了将数据集中到某个位置进行训练的方法,取而代之的是将模型分散到各个不同的站点进行迭代训练。
例如,当前有三家医院决定合作建立一个模型,用于自动分析脑肿瘤图像。
-
首先将会有一个中心服务器(centralized server)维护全局深度神经网络,每个参与项目的医院都会得到一个副本,在其各自的服务器上使用自己的数据集进行训练。
-
在本地对模型进行了数次迭代训练之后,参与者会将训练后的更新版模型发送回中心服务器,但在这一过程中,训练所用的数据集则是始终都保存在各个医院自己的安全基础设施中,不曾离开片刻。
-
随后,中心服务器将汇总所有参与者的训练成果,并将更新后的模型参数再度分发给各参与机构,以便它们能够继续进行本地训练。
在整个项目进行的过程中,如果其中一家医院决定离开训练团队,该模型训练工作也不会因此而中断,因为它不依赖任何具体数据。同理,另外一家新医院也可以随时加入该项目。
每个参与者都能凭借本地数据获取全局知识——从而达到共赢的结果