出自—联邦学习综述:概念、技术、应用与挑战 梁天恺 1*,曾 碧 2,陈 光 1
联邦学习的开源框架
- 微众银行牵头 提出的 FATE(Federated AI Technology Enabler)框架
- 百度 牵头提出的 PaddleFL(Paddle Federated Learning)框架
- 谷 歌 牵 头 提 出 的 TFF(TensorFlow Federated)框 架
- OpenMind 牵头提出的 PySyft 框架
联邦学习的应用场景
智慧城市
随着企业与个人对隐私要求的提高,联邦学习可在保护各方数据的安全性与隐私性的前提下,将城市里各方的数据进行安全整合,为市民提供更便捷的城市服务。
智慧政务
政务数据属于政府层面的隐私数据,导致政 务数据库不能随意为第三方提供数据服务,限制了人工智能 算法的性能提升,如贷款人风险评估等,无法融合公安部门 的数据、征信部门的征信记录等数据特征,限制了评估算法 的性能。联邦学习的出现,为数据孤岛问题提供了一种安全 的解决方案。
智慧医疗
医疗领域更注重个人数据的隐私性。比 如,多个医院需要协同合作,对患者进行 DNA 测序,以告知 患者所患疾病。联邦学习就可以联合多个医院的不同数据 集进行学习,训练出一个蕴含多个医院的不同知识的联邦模 型,为患者 DNA 序列工作提供联邦预测的能力。如此,各医院的 DNA 库以及患者的 DNA 序列均互不可知,保证了多方 的数据安全和隐私安全。
金融保险
在金融保险行业,横向联邦学习可以为具有 相同数据特征的金融机构,如多家银行,训练横向联邦模型。 也可为具备不同数据特征的金融机构,如证券公司与信贷公司,训练纵向联邦模型。有效保护了金融数据的安全性,提 高金融评估模型的性能。
物联网
在当今万物互联的物联网时代的发展趋势下, 联邦学习也为万物数据安全互联互通提供了可能性。比如 谷歌输入法的 Gboard 系统,把多个装有 Gboard 的设备组成 联邦,融合多方数据构建联邦学习,有效提高了输入法对不 同行业以及输入习惯的用户的输入词预测任务的准确率。 因此联邦学习随着物联网技术的发展以及隐私保护观念的 深入,愈发具有巨大的潜力和潜在价值。
跨域推荐
联邦学习在跨领域推荐也展现出了巨大的 前景。比如视频网站和广告商的跨领域合作,提高双方的营 收和用户活跃度;又比如网购平台与社交平台的合作,社交 平台提供用户社交活动中出现的商品类别和社交圈特征等, 网购平台提供商品信息和用户购买记录等,双方合作可以同 时提高网购平台和社交平台针对用户的商品及服务的推荐 准确度。
多方推理
传统的机器学习算法的推理过程是基于一 个集中式模型进行的,联邦学习的出现使得多方推理成为可 能。多方推理是指各方不需要进行数据以及学习信息的交 换,仅使用多方的本地模型进行联邦推理。此应用场景下, 能更进一步地保护各方的数据和隐私安全,同时让推理过程 融合更多的知识,提高推理结果的可靠性。
联邦学习面临的挑战
参与方难题
作为联邦学习的成员,参与方是联邦学习的主要成员也 是联邦学习的基础,但联邦学习在参与方层面存在的难题也 不 少 ,目 前 最 主 要 存 在 的 是 参 与 方 激 励 以 及 参 与 方 选 择 等 难题。
参与方激励难题指的是如何吸引更多的参与方参与到 联邦学习中,是限制联邦学习系统中的数据规模和数据多样 性的提高以及联邦学习模型性能提升的关键。因此联邦学 习面临的挑战还包括如何建立一个完善的激励机制和分配 机制,鼓励更多参与方的加入
其次,联邦学习还存在着如何识别诚实但好奇的半诚实 参与方以及恶意的参与方,如何选择合适的参与方等难题。 目前的联邦学习方法中,所有参与方都是无差别地参与到联 邦学习中;但是,对于一个参与方来说,可能并不是所有的其 他参与方的模型信息对它都是有帮助的。因此研究一种可 行且可信的诚实参与方识别算法,让参与方在学习过程中可 以自主地按需选择若干个安全的其他参与方的模型信息进 行本地更新,也是联邦学习需要解决的问题之一
算力难题
联邦学习虽然可以在保护各方隐私的前提下,将多个设 备联合在一起进行训练,有效提高了模型性能;然而在当今 移动设备的算力下,仅有部分小运算量的算法如逻辑回归等 可在设备端运行,限制了主流的包含前后反馈过程的神经网 络的实施。这也是联邦学习面临的巨大挑战之一
通信难题
在联邦学习的过程中,各方之间需要频繁交换加解密以 及模型相关的数据,而协调方往往需要等待所有参与方的中 间数据都返回后才能进行安全聚合或其他数据处理,这对通 信提出了较高的要求**。如何提高通信信道的质量和容量**,成 为限制联邦学习发展的难题之一
聚合难题
在联邦学习中,存在一个协调方对所有参与方的数据进 行安全聚合和运算等。目前的联邦学习算法的常见聚合方 式有 FedAvg 平均聚合以及 FedProx 异构聚合,但事实证明以 上的聚合方法都会使得大部分联邦学习模型相较于集中式 模型是有损的。其次,如何使得主服务器可异步地聚合各参 与方的信息,提高参与方中途退出学习的应对能力,也是联 邦 学 习 亟 须 解 决 的 难 题 之 一
随 着 技 术 的 发 展 ,目 前 也 存 在 一 些 无 损 的 联 邦 学 习 模 型 ,如 纵 向 联 邦 树 模 型 SecureBoost;可 惜 的 是 ,目 前 的 纵 向 联 邦 学 习 还 存 在 一 个 巨 大的问题——预测难题
预测难题
在纵向联邦学习中,只有协调方得知的是整个联邦的结 构,而参与方得知的是与其数据特征相关的子模型的结构。因此在联邦预测过程中,需要协调方与参与方共同合作才能 预测出新样本的标签。一旦某个参与方退出联邦,该方所掌 握的子树结构也会随之消失,严重影响联邦预测过程
中心方等待聚合难题
在目前的联邦学习方法的学习中,中心方需要等待所有 的参与方模型信息返回后才会进行新一轮的信息聚合。如 遇到参与方掉线或通信阻滞等问题,会导致中心方陷入无限 的等待过程中,严重影响模型聚合以及联邦学习的效率。因 此,如何提出一种能保证联邦学习效率和效果的中心方等待 聚合的策略,也是联邦学习面临的挑战。