联邦学习白皮书v2.0_联合学习算法概要

联合学习算法笔记

下面介绍的是一种端云联合训练学习算法,也称横向联邦学习 原文链接

提出背景:训练数据不能远离其来源,也就是服务器不能收集数据

原因可能包括隐私问题,例如照片不愿意上传;监管障碍(HIPAA,GDPR等);
实际工程限制,例如网络连接昂贵,速度慢或不可靠,或数据量太大了。

联合学习是指一系列算法,其试图在上述背景现状中解决机器学习问题。它们的重要细节不同,但基本思想共通:虽然服务器不能收集数据,但是可以收集模型的参数,服务器协调边缘设备参与训练,每个边缘设备都有训练数据。每个边缘设备都利用自己的数据训练一个本地模型,将自己的参数加密传或者不加密上传给服务器,服务器通过将收集上来的参数进行平均或者加权平均,广播给每个边缘设备。

乍一看,你可能觉得联合学习好像在哪见过,有种似曾相识的感觉,这和分布式机器学习有啥区别呢?下面我们分别来看下二者的区别:

联合学习

1、 边缘设备占据主导地位,自主决定何时加入联邦学习进行建模
2、 设备不稳定,例如手机、iPad、智能家居等设备
3、设备之间 算力各不相同,差异较大
4、通信代价远大于计算代价
5、节点之间数据不平衡,建模困难

分布式机器学习

1、 中心节点占据主导地位
2、 设备稳定,所有设备都在机房,24小时不断电,专人维护
3、 计算性能几乎一样
4、通信几乎没有代价
5、节点之间数据平衡

横向联邦学习要达到两个基本目标:

  1. 不交换样本也能利用全部样本进行模型的训练,训练效果与聚集全部样本后训练一致
  2. 训练过程交换的中间数据也不能暴露样本信息
关于目标1,早在96年FJ Provost等人就提出了Distributed Rule Learning( http:// citeseerx.ist.psu.edu/v iewdoc/download?doi=10.1.1.57.2129&rep=rep1&type=pdf ),说明使用多台计算机并行处理不同的样本可以大大加速模型训练。到了2014年,李沐等人依据在百度的大规模机器学习实践提出了ParameterServer模式( http:// papers.nips.cc/paper/55 97-communication-efficient-distributed-machine-learning-with-the-parameter-server.pdf )又大大提升了分布式机器学习在集群架构和算法实现的泛用化程度。所以实现目标1已经被工业界和学术界基本攻克。
难度在于目标2,漏洞就在于分布式机器学习引入的梯度传输,可能会导致反推回原始数据。MIT的Han Song组在 NeurIPS 2019 发表的 Deep Leakage from Gradients( https:// hanlab.mit.edu/projects /dlg/ ),用20行基于PyTorch核心代码的样例,运用GAN的思想,让分布式训练中的一个攻击方可以从整个模型更新梯度的过程中,不断生成与其他参与各方相同的数据,从而实现『偷取』数据。

横向联邦学习要解决的基本问题本身就包含梯度泄露。早在2017年,谷歌的Bonawitz等发表了『Practical Secure Aggregation for Privacy-Preserving Machine Learning』这篇文章,详细阐述了针对梯度泄露攻击设计的Secure Aggregation协议:

  1. 通过选择部分用户的加密梯度更新,类似于异步参数更新策略,来防御clients中的攻击者。这个可以基本可以解决DLG的问题,而DLG基本上依赖于同步参数更新策略的强假设:需要获得被攻击方样本集合上梯度值的精确值,随机选择会大大降低DLG的性能。
  2. 基于Secret Sharing的思想,让Server只知道Aggregated Gradients,防止Server想做坏事。

关于个性化

在“常规”联合学习中,服务器的目标是使用每个节点上的数据来训练单个全局模型,但是在节点计划应用模型的情况下,它通常会更多关注的是,本地模型捕获其数据中的模式比任何其他节点的数据更加准确。例如,如果我是一个正在训练模型的网络中的节点,该模型将帮助编写更有可能收到回复的电子邮件,我更关心该模型对我的作用而不是对其他人有效

如果全局模型具有适当灵活的体系结构并且在许多良好的训练数据上进行训练,那么它可能比在单个节点上训练的任何本地模型更好,因为它能够捕获许多特性并推广到新模式。但有时在实践中,用户的目标(本地性能)可能与服务器的(全局性能)冲突。
研究个性化的目标就是解决这种倾向情况。在联合多任务学习中,Virginia Smith和合作者将个性化框架转化为一个多任务问题,其中每个用户的模型都是一个任务,但是存在一个与任务相关的结构。

关于隐私

在联合学习设定中,服务器和节点相互信任是合理的,这种类型的攻击是比较值得考虑的问题。但是,如果服务器或节点不值得信任,则可能存在其他类型的攻击。

总结

联合学习使机器学习在世界上最受监管,最具竞争力和最有利可图的行业中应用变得更容易,更安全,更便捷。它是当前非常活跃的研究领域,在隐私,安全,个性化和其他领域也存在很多开放性问题。

更多学习资料:

  • 基于树的联邦学习:
PaperWeekly​www.paperweekly.site
  • 杨强:GDPR对AI的挑战和基于联邦迁移学习的对策:
马上科普:杨强:GDPR对AI的挑战和基于联邦迁移学习的对策​zhuanlan.zhihu.com
b0e56cf6b06102abe1ec363052bc300a.png
《Federated Machine Learning: Concept and Applications​arxiv.org
  • 微众银行+杨强教授团队的联邦学习FATE框架代码:
https://github.com/WeBankFinTech/FATE​github.com
  • 谷歌联邦迁移学习TensorFlow Federated (TFF)框架代码:
https://www.tensorflow.org/federated/​www.tensorflow.org
  • 联邦学习白皮书:
https://img.fedai.org.cn/wp- content/uploads/pdf/%E8%81%94%E9%82%A6%E5%AD%A6%E4%B9%A0%E7%99%BD%E7%9A%AE%E4%B9%A6_v2.0.pdf​img.fedai.org.cn

推荐一个很好的视频:

https://www.youtube.com/watch?v=STxtRucv_zo​www.youtube.com https://www.bilibili.com/video/BV1xJ41177ST/?spm_id_from=333.788.videocard.1​www.bilibili.com
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值