论文阅读笔记--Federated Continual Learning with Weighted Inter-client Transfer

本文提出了一种新的场景,联邦学习(FL)的每个client各自执行一系列的持续学习(Continual Learning)任务,为了说明这个场景的实际意义,文章给出了这样一个场景:
在这里插入图片描述
若干个医院要通过一个联邦学习框架交流自己的知识,每个医院的模型都在进行自己的一系列的疾病预测任务。作者以一个持续学习算法(Additive Parameter Decomposition,APD)为基础,加上了client之间的知识的加权,构成了整个算法,其中APD是本文同一作者发表在2020年ICLR的论文。

Continual Learning、APD

Continual Learning是为了解决现有模型,尤其是神经网络在学习多个任务的时候出现的灾难性遗忘(Catastrophic Forgetting)问题。比如模型在学习了一段时间任务A之后,开始学习任务B,那么模型的参数将转而向任务B偏移,遗忘从任务A中学习到的知识。为了能够让模型拥有像人这样,学习了后面的任务但是不会遗忘前面的知识、或者说能够不让模型在前面的任务中表现下滑太多,我们引入了Continual Learning 这个研究内容。APD是本文作者以前提出的一个持续学习算法,这里不过多介绍,只说一下它的核心思想,就是把模型拆分成两部分:共享参数(task-shared parameters)和自适应参数(task-adaptive parameters),简称为 σ \sigma σ τ \tau τ。因为每个任务之间有些基本的知识是共通的,比如图片中像线条、颜色等这样的浅层特征,这些由 σ \sigma σ来学习,细化到每个任务的学习目标,比如猫狗识别、数字识别等,这些是不同任务间特有的知识,有 τ \tau τ来学习。每个任务t的参数 θ t = σ ⊗ M t + τ t \theta_t=\sigma\otimes\mathcal{M}_t+\tau_t θt=σMt+τt,其中 M \mathcal{M} M表示一个mask变量,使 σ \sigma σ集中注意力于特定的任务上。优化目标为
请添加图片描述

模型

在这里插入图片描述

两个不同的任务合作学习时,往往会出现Figure 2所示的问题,如果两个任务相关性比较强,辅助任务对目标任务有正向作用,如果任务相关性比较弱,则可能会阻碍目标任务的结果,因此在学习时,应当让与目标任务更相似的任务参与辅助。
请添加图片描述
如图,每个client执行一系列的任务,这些任务共享一个base model:B。client先将全局模型 θ G \theta_G θG下载下来,作为本地的base model。经过若干轮的local update之后,B通过一个mask m上传到服务端,服务端对其进行聚合得到新的全局模型 θ G \theta_G θG。这部分学习的是这些client的通用知识。此外,因为每个client的每个任务都划分为base model(B)和adaptive model(A),client还会把自己所有的A上传,server把这一组A广播给所有的client,client的每个任务自己维护一组注意力参数 α \alpha α,有选择性的对这些A进行利用,组成自己的A。于是可以将局部模型 θ c \theta_c θc表示为
请添加图片描述
A i ( j ) A_i^{(j)} Ai(j)表示第i个client第j个任务的A, α i , j ( t ) \alpha_{i,j}^{(t)} αi,j(t)表示它在当前client的第t个任务之下的系数。训练的目标函数为:
请添加图片描述
第一项就是模型在任务上的损失,第二项是 l 1 l_1 l1正则化相,使得模型A和mask参数稀疏化,第三项则是限制持续学习过程中模型变化的量,用于保持先前任务中学习的知识。算法框架如下:
请添加图片描述

实验

实验部分只介绍以下两个
请添加图片描述
上图所示的实验是attention和任务相关性的关系实验,任务相似度越高,其adaptive model的attention越大,对当前模型的影响越大。请添加图片描述
然后作者在异步场景下也做了实验,此模型在各client异步共享模型的情况下表现也要更好。

(转载请注明出处)

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
### 回答1: "Federated learning with non-iid data" 的含义是:在非独立同分布数据(non-iid data)的情况下进行联邦学习。联邦学习是一种分布式学习的方法,其特点是模型的训练和更新是在本地设备上进行,而不是在中心服务器上进行。而非独立同分布数据则意味着不同设备之间的数据具有不同的分布和特征,这会对联邦学习的效果造成挑战。因此,在进行联邦学习时,需要考虑如何处理这种情况,以提高模型的准确性和鲁棒性。 ### 回答2: 联邦学习是近年来备受关注的一种机器学习方法,其核心精神是通过多个客户端设备在本地进行数据处理和训练模型,不必将原始数据汇集到一起,避免了隐私泄露和数据传输带来的风险。但实际上,大多数现实场景中的数据并不是独立同分布的(non-iid),多个客户端设备所在的数据分布也极有可能不同,如何在保持原有联邦学习思路的基础上应对非iid数据,也成为了当前研究的热门问题。 目前,学界和产业界对非iid联邦学习的解决方案尝试有很多,其中一些典型的方法包括: 一、联邦聚类(Federated Clustering)。该方法利用监督和非监督的数据聚类模型,对处理不同数据分布的客户端设备进行分类,形成若干个数据分布相似的组,然后在每个组中进行联合学习,对每个组得到的模型结果进行合并。 二、联邦迁移学习(Federated Transfer Learning)。该方法通过在源域数据上进行模型训练和参数更新,再通过一定的方法将已训练的模型迁移到目标域中进行更新和优化,从而使得目标域数据更好地适应模型。 三、混合学习(Federated Hybrid Learning)。该方法结合了联邦学习和分层模型的想法,将多个客户端设备的数据层级化,在相同维度的数据上进行联邦学习,但不同层级内的数据各自训练特定的模型。 以上这些方法都对非iid联邦学习的问题提供了一定的思路和解决方案,在应用场景中也得到了初步的应用。但是,不同于iid数据的不同分布、语义、类别之间的差异使得非iid联邦学习更具挑战性,其数据分布、协作策略、学习算法等方面的问题都需要进一步研究和提高。未来,我们需要不断探索更好、更高效、更准确的非iid联邦学习的方法和方案,应用到各个行业领域提高数据的利用效率和隐私保护水平。 ### 回答3: 联邦学习是一种先进的机器学习技术,它允许多个参与方共同训练一个模型,而不需要将原始数据集集中在单个位置。这种分布式学习的方式可以最大程度地保护用户的数据隐私和安全。 然而,在实际应用中,有时候我们会遇到一些具有不同的分布性质的非IID数据集。因为数据的不均匀和异构性质,使得对于分布在不同的机器上的数据进行联合训练变得更加困难。这种情况也称为不相同的数据偏移或数据漂移。不同分布性质的数据会导致训练模型的性能下降,因为模型无法对不同的数据进行适应。这也使得联合学习更具挑战性。 为了解决这个问题,可以对数据进行采样和重新加权,以便在融合时使每个本地模型对于不同的数据立场相对均衡。一种基于采样的方案是Federated Averaging with Local Adapation(FALA),它是一种高效的算法,它通过对于权值进行本地的调整,减少了由于数据偏移带来的下降的性能。此外,类别抽样和异质性采样也可以用来处理iid 的数据集之间的不相同。在数据偏移情况下,这需要更多的小样本和多轮次迭代。 另一种方法是加入对模型的个性化贡献,即在联合优化时分配不同的权重给本地模型或者对于不同的参与方使用不同的模型。例如,对于基于 神经网络的模型,可以采用逻辑斯蒂回归模型或者线性模型,以提高对于多样性的应对能力。 总而言之,对于不同的非IID数据,需要在联合训练时采用合适的方案,以克服分布不均带来的挑战并获得更好的结果。需要根据不同的实际情况选择最佳的方法,以满足不同的需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值