联邦学习白皮书V2.0

联邦学习动机

  • 数据收集、数据清洗、数据建模、任务预测通常为不同方,传统的数据交易所的数据交换违反GDPR通用数据保护条例,各个用户、组织或机构拥有的数据形成数据孤岛和壁垒
  • 联邦学习是解决数据孤岛、打破数据壁垒、满足隐私保护和数据安全的一种可行性方案。

联邦学习概述

  • 联邦学习特性
    – 各方数据都保留在本地,不泄露隐私、不违反法规(上传参数或梯度);
    – 多方联合数据建立虚拟的共有模型、共同获益的体系(联邦平均、任务激励);
    – 各方身份和地位平等(用户可靠性、数据质量有差异);
    – 在各方数据对齐或特征对齐的条件下,联邦学习的建模效果和将整个数据集放在数据中心建模的效果相同、或相差不大(横向联邦、纵向联邦);
    – 在各方数据或特征不对齐的情况下,迁移学习可以在各方数据间通过交换加密参数达到知识迁移的效果(联邦迁移学习);

  • 联邦学习定义
    在进行机器学习的过程中,各参与方可借助其他方进行联合建模,各参与方无需共享数据资源,即数据不出本地的情况下,进行数据联合训练,建立共享的机器学习模型。

  • 联邦学习架构:(目标:直到联邦学习模型的效果与传统数据聚合所建模型的效果足够接近)
    在这里插入图片描述

  • 联邦学习与差分隐私
    – 联邦学习通过加密体制下的参数交换保护用户数据隐私,数据和模型本身不会进行传输
    – 差分隐私通过向用户数据添加适量噪声达到保护数据隐私的目的,本质上仍是传输数据,存在数据泄露的可能性。

  • 联邦学习与分布式机器学习
    – 联邦学习是在保护各方数据的前提下进行联合训练;
    – 分布式机器学习是将数据分布在分布式的工作节点上,由中心节点调配训练,工作节点间不存在数据孤岛问题。

  • 联邦学习与联邦数据库
    – 存储方式相似,数据异构,但联邦数据库不涉及任何隐私保护机制。

  • 联邦学习与区块链
    – 网络结构上,均是一种去中心化网络结构,稍有区别是联邦第三方会承担汇聚模型,区块链完全是点对点的;安全算法上,联邦学习使用同态加密,区块链使用哈希算法、非对称加密;数据角度上,区块链的每个节点上记录了完整的密文数据,联邦学习的数据均保留在用户本地;奖励机制上,区块链的节点间通过竞争记账获得奖励,联邦学习中依据各方的共贡献分配奖励。

联邦学习分类

在这里插入图片描述

联邦学习框架

在这里插入图片描述

后面进一步研究FATE框架

  • FederatedML:联邦学习算法功能组件,所有模块均采用模块化解耦的方式进行开发,从而增强可扩展性。
  • FATE-Flow:联邦学习建模Pipeline调度和生命周期管理工具,为用户构建端到端的联邦学习Pipeline生产服务。
  • FATE-Board:联邦学习建模的可视化工具,为终端用户可视化和度量模型训练的全过程。支持对模型训练过程全流程的跟踪、统计和监控等,并为模型运行状态、模型输出、日志追踪等提供丰富的可视化呈现,帮助用户简单高效地深入探索模型与理解模型。
  • FATE-Serving:高性能可扩展的联邦学习在线模型服务。
  • KubeFATE:通过把FATE的所有组件用容器的形式封装,基于容器部署应用不仅可以无差别地运行在支持容器的平台上,还可以按需灵活地实现多实例水平扩展。通过KubeFATE项目,开发者可以在公有云或私有云中部署FATE项目。

联邦自动驾驶

  • 背景: 以高速公路、无人园区为代表的简单道路环境,行人及车辆的特殊状况较少,适合无人驾驶落地。无人驾驶具有降低人类精力损耗、降低交通事故概率的优势,国家战略上、社会发展上都显露无人驾驶是一个具有极高社会价值、经济价值的方向。
  • 问题与解决方案:
    – 车辆的受制于时间和空间的限制,感知器的感知范围、捕捉的信息有限,存在目标缺失、目标遮挡、小目标检测等问题。
    – 车辆传感器捕捉的感知数据内隐含大量隐私信息,直接共享数据会导致数据隐私泄露,为了保护车辆本地数据隐私,联邦学习架构是可行性方案。
    – 引入横向联邦学习,融合不同车辆的摄像头、超声波传感器、雷达传感器信息,加快建立、学习场景信息的能力,同时有助于提高模型的鲁棒性。
    – 引入纵向联邦学习,辅助城市摄像头、交通灯、未来智能道路等信息,结合物联网、车路协同、5G等技术,可以更好地在隐私保护下融合不同数据源的信息,加强车辆与场景环境的理解与交互。

潜在攻击

  • 攻击位置
    – 客户端:被恶意操纵的客户端在参与的训练迭代(通信)中,检查从服务器接收的所有消息(模型),进而篡改训练过程。
    – 服务端:被恶意操纵的服务端检查客户端上传的所有消息(更新梯度),进而篡改训练过程。
  • 攻击方式
    模型更新攻击(训练周期内):恶意攻击者控制客户端并改变客户的输出,使得服务器聚合学习的模型偏离目标;若可以控制客户端产生任意输出,称为拜占庭攻击(无目标攻击),相对地,有目标攻击倾向于驱使学习模型偏离原有梯度下降方向(正确收敛方向),将篡改后的梯度上传给服务器,需要少量攻击成本。
    数据攻击(投毒攻击)(训练周期内):区别于模型更新攻击,数据攻击中,恶意攻击方不能直接更改训练模型,而是篡改客户端数据,例如数据特征、标签等。
    逃逸攻击(推理周期内):在不改变联邦学习系统的情况下,通过构造特定输入样本,例如通过添加噪声产生与原始测试输入几乎没有区别的虚假输入,可以欺骗训练模型,产生相同的预测结果。(通过对抗训练抵抗逃逸攻击存在缺陷,对抗样本通过在测试样本中加入范数有界的扰动生成,仅能提高特定类型样本的健壮性,仍然易受到其他形式的对抗噪声影响;此外,对于Non-IID数据没有普适标准;确定扰动范数界限困难。)
    – 重构攻击:包含模型反演攻击(根据模型参数反向推测出训练数据)和模型窃取攻击(重构出类似的替代模型)
    – 成员推断攻击:判断某个样本是否在训练数据集中(根据攻击知识的多少可划分为黑盒和白盒模式)
    – 其他非恶意的故障导致的隐私安全。

激励机制

如何设计一种联邦学习下的奖惩设计及分配机制?
引入博弈论、契约理论,有效衡量各方的贡献程度,公平分配奖励,形成正向促进循环。

有效性和效率

  • 联邦学习中,如何降低Non-IID数据的影响?
    改进目标函数;微调;迁移学习;元学习。

  • 有限资源下的超参数调节。
    学习率 η \eta η、训练小批量 B B B、每轮通信参与训练的客户端数量 E E E、每轮通信的本地训练迭代数量 C C C

  • 有限的通信带宽及客户端设备的不可靠性。
    降低通信上传带宽;数据(参数、梯度)压缩,结合量化模型、稀疏模型、训练特定层(预训练模型)与联邦平均;目标实现通信效率与模型准确性的平衡。

  • 1
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值