联邦学习(电子工业出版社)——读书笔记(5)

第六章 联邦迁移学习

异构联邦学习

联邦学习可以结合迁移学习技术,使其可以应用于更广的业务范围,同时可以帮助只有少量数据(较少重叠的样本和特征)和弱监督(较少标记)的应用建立有效且精确的机器学习模型,并且遵守数据隐私和安全条例的规定。我们将这种结合称为联邦迁移学习,它可以处理超出现有联邦学习和纵向联邦学习能力范围的问题。

联邦迁移学习的分类与定义

迁移学习的本质是发现资源丰富的源域和资源稀缺的目标域之间的不变性(或相似性),并利用该不变性在两个领域之间传输知识。基于执行迁移学习的方法,文献[254]将迁移学习主要分为三类:基于实例的迁移、基于特征的迁移和基于模型的迁移。联邦迁移学习将传统的迁移学习扩展到了面向隐私保护的分布式机器学习范式中。

基于实例的联邦迁移学习

对于横向联邦学习,参与方可以有选择地挑选或者加权训练样本,以减小分布差异,从而可以将目标损失函数最小化。对于纵向联邦学习,对齐的样本及其某些特征可能对联邦迁移学习产生负面影响,这被称为负迁移[254]。在这种情况下,参与方可以有选择地挑选用于训练的特征和样本,以避免产生负迁移。

基于特征的联邦迁移学习

参与方协同学习一个共同的表征空间。对于横向联邦学习,可以通过最小化参与方样本之间的最大平均差异来学习共同的表征空间。对于纵向联邦学习,可以通过最小化对齐样本中属于不同参与方的表征之间的距离,来学习共同的表征空间。

基于模型的联邦迁移学习

参与方协同学习可以用于迁移学习的共享模型,或者参与方利用预训练模型作业联邦学习任务的全部或者部分初始模型。横向联邦学习本身就是一种基于模型的联邦迁移学习。

最终目标是尽可能准确地对目标域中的样本进行标签预测(或回归预测)。

从技术角度来看,联邦迁移学习和传统的迁移学习主要有以下两个方面的不同:

  1. 联邦迁移学习基于分布在多方的数据来建立模型,并且每一方的数据不能集中到一样或公开给其他方。传统迁移学习没有这样的限制。
  2. 联邦迁移学习要求对用户隐私和数据(甚至模型)安全进行保护,这在传统迁移学习中并不是一个主要关注点。

联邦迁移学习系统的安全定义:一个联邦迁移学习系统一般包括两方,称为源域和目标域。一个多方的联邦迁移学习系统可以被认为是多个两方联邦迁移学习系统的结合。

 

联邦迁移学习框架

联邦迁移学习框架通过对齐样本的表征训练得到一个预测模型。该预测模型被用来预测B方中未标记样本的标签。

假设源域A方和目标域B方:

我们可以使用基于加密(如RSA)的掩码技术,在保护隐私的同时,匹配A方和B方之间具有相同ID的样本。最终目标是双方协作地建立一个迁移学习模型,在不向对方公开数据的情况下,尽可能准确地为目标域中的B方预测标签。

加密步骤是为了防止传输过程被恶意的第三方所窃听,而掩藏步骤是为了防止A方和B方获知对方确切的梯度值。

需要注意的是,在安全联邦迁移学习中,性能损失的唯一来源是最终损失函数的泰勒二级近似,而不是在神经网络中的每个非线性激活层。

安全性分析

只要底层的加法同态加密方法是安全的,则联邦迁移学习的训练过程和预测过程就都是安全的。

在每一轮迭代中,A方和B方收到的唯一未经加密的数值是模型参数的梯度信息,梯度信息由所有变量聚合得到,且会用随机数值来掩藏。在训练过程 到最后,每一方(A方或B方)都不会知晓另一方的数据结构,并且每一方只能获得与自己特征相关的模型参数。在推理过程中,两方都需要与对方协作才能计算出预测结果。

需要注意的是,该协议并没有处理有恶意方参与的场景。如果A方在其输入上作假,并只提交一个非零输入,所有方都不能得到正确的结果。

基于秘密共享的联邦迁移学习

同态加密技术需要大量的计算资源和大规模的并行能力才能得以扩展,因此在许多需要实时计算的应用中,使用同态加密是不合适的。

相较于同态加密的另一种安全协议是秘密共享。秘密共享的最大优点包括:没有精度损失;相比同态加密方法,计算效率大大提高。秘密共享方法的缺点是在进行线上计算之前,必须离线生成和存储多用于乘法计算的三元组数据。

挑战与展望

传统的迁移学习通常以顺序化或中心化的方式进行。

  1. 顺序迁移学习是指首先在源任务上学习迁移知识,之后应用于目标域,以提升目标模型的性能。
  2. 集中迁移学习是指迁移学习所设计的模型和数据都集中于一处。因此,传统的迁移学习在许多实际应用场景中都是不适用的。因为在这些场景中,数据常分散于多方,并且隐私安全是一个主要的关注点,

联邦迁移学习面临诸多挑战,这里列举了其中三个。

  1. 需要制定一种学习可迁移知识的方案。该方案能够很好地捕捉参与方之间的不变性。联邦迁移学习中的迁移知识由各参与方的本地模型共同学习得到。每一个参与方都对各自本地模型的设计和训练拥有完全的控制权。在联邦迁移学习模型的自主性和泛化性能之间,我们需要寻找一种平衡。
  2. 我们需要确定如何在保证所有参与方的共享表征的隐私安全的前提下,在分布式环境中学习迁移知识表征的方法。
  3. 我们需要设计能够部署在联邦迁移学习中的高效安全协议。在设计或选择安全协议的时候需要仔细考虑,以便在安全性和计算开销之间取得平衡。
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

超威橘猫

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值