联邦学习

联邦学习的本质

本质上是一种分布式机器学习的技术/框架。

解决什么问题?

解决数据孤岛的问题

为什么会存在数据孤岛的问题?

机器学习需要大量的数据来训练模型,但是为了满足数据安全、保护用户隐私以及政法合规等要求。

数据的流动越来越受到限制,因此就产生了数据孤岛。

联邦学习为什么能解决数据孤岛的问题?

相比于传统机器学习,需要对先对各种样本数据进行中心化处理,然后用于模型训练。

但在联邦学习的机制下,各参与者的身份和地位相同,让参与着在不共享数据的基础上就能进行联合建模。

具体怎么解决的(学习过程介绍)?

1、横向联邦学习

不同数据集的用户特征重叠较多,但用户重叠较少。
简单讲就是有两家天南地北卖烧饼的店,来买烧饼的用户特征都差不多,但是离得远,互相的常客肯定不是同一伙人。

在这里插入图片描述
step1:参与方各自从服务器 A下载最新模型;

step2:每个参与方利用本地数据训练模型,加密梯度上传给服务器 A,服务器 A 聚合各用户的梯度更新模型参数;

step3:服务器 A 返回更新后的模型给各参与方;

step4:各参与方更新各自模型。

问题思考:

a、在该机制下,每个参与者地位都是平等的,那么不论参与者提供数据质量如何,都能获得同样精确度的模型,是不是有些不公平?

b、联邦学习可以应用在端智能上,未来可能有些含有用户隐私的数据是不能传到云端的,这时候可以在端上直接利用本地数据跑模型,然后将参数同步到服务器。

2、纵向联邦学习

不同数据集用户重叠较多而用户特征重叠较少。
简单讲就是卖烧饼的隔壁是家美容美发店,两家店常客都是周边的居民,但是各自收集的用户特征又不一样。

纵向联邦学习就是将这些不同特征在加密的状态下加以聚合,以增强模型能力的联邦学习。

目前机器学习模型如逻辑回归、决策树等均是建立在纵向联邦学习系统框架之下的。

在这里插入图片描述

第一步:加密样本对齐。是在系统级做这件事,因此在企业感知层面不会暴露非交叉用户。

第二步:对齐样本进行模型加密训练:

step1:由第三方C向A和B发送公钥,用来加密需要传输的数据;

step2:A和B分别计算和自己相关的特征中间结果,并加密交互,用来求得各自梯度和损失;

step3:A和B分别计算各自加密后的梯度并添加掩码发送给C,同时B计算加密后的损失发送给C;

step4:C解密梯度和损失后回传给A和B,A、B去除掩码并更新模型。

3、联邦迁移学习

迁移学习就是把其他领域学习到的经验,类比的迁移到另一个相似的领域。

简单讲就是有人乒乓球打的好,突然一天有人约他打羽毛球,虽然他不会打羽毛球,但是可以寻找两个运动的相似点来快速上手。

比如两种运动都是想办法把球打过网而不要出界。

当不同数据集的用户特征和用户都重叠较少的时候,可以采用联邦迁移学习来克服数据或标签不足的情况。

在这里插入图片描述

联邦迁移学习的步骤与纵向联邦学习相似,只是中间传递结果不同。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值