【论文笔记】FedDAT:一种用于多模态异构联邦学习中基础模型微调的方法


这是这周读的第二篇文献,以下内容是论文笔记

FedDAT: An Approach for Foundation Model Finetuning in Multi-Modal Heterogeneous Federated Learning

1. Abstract 综述

  • 引出背景:基础模型发展得很迅速,但是由于不同的法律法规,收集基础模型的训练数据还是具有一定的难度和挑战性
  • 通过联邦学习,可以在各个客户端协作训练神经网络,而不需要集中本地数据。
  • 联邦学习方法:PEFT Parameter-efficient Finetuning来减轻客户端的计算负担和通信开销
  • 新出现的问题:以往的研究大多集中在单一模态上,而忽略了跨客户端的数据异构性的存在,
  • 为了解决这个新出现的问题,这篇论文提出了一个新的框架——联邦双适配器教师FDAT Federated Dual-Aadapter Teacher(FedDAT)
  • 双适配器教师DAT通过正则化客户端本地更新和应用互相知识蒸馏来解决数据异构性问题
  • 经过实验证明,FedDAT的性能优于PEFT

2. Introduction 引言

2.1 基础模型训练的窘境

  • 首先还是先阐述了一下由于一些政策的限制,收集一些数据具有一定的困难

2.2 解决窘境的方法——联邦学习

  • 联邦学习可以很好地解决上述问题,联邦学习允许多个客户端使用分散的数据源来协作优化基础模型。
  • 联邦学习已经有一些方法可以进行优化。例如,FedAvg方法通过对多个客户端上传的优化模型权重取平均值来更新模型
  • 联邦学习的优点:
    • 增强了服务器和客户端之间的交流效率
    • 避免了基础模型直接访问本地数据,保护了客户的隐私

2.3 联邦学习的局限性

  • 现在的一些基础模型具有数十亿的参数,通过联邦学习优化这个数量级的参数,实现客户端和服务器之间的传输会带来大量的负担和通信开销
  • PEFT提供了一种解决方案,这种方法只对一小部分参数进行优化和微调
  • 在联邦学习领域中,现有的一些作品是将PEFT和传统方法FedAvg进行基本组合
  • 然后这些组合都是只考虑了一种基本任务,通常只有单一模态,只考虑文本或者视觉的任务。并且,这些作品都忽略了数据异构性的问题
  • 数据异构性,即不同客户端中的数据都不是独立的相同的分布,每个客户端中的数据都不是一样的。数据异构性在客户端本地更新的期间可能会造成模型漂移,以及导致聚合服务器模型的不稳定和次优收敛
  • 在本篇文献中,提出了FedDAT来解决上问题

2.4 FedDAT方法大致内容

  • FedDAT在基础模型中集成了一个全局适配器,这个全局适配器可以在联邦通信中进行优化和更新
  • FedDAT使用了双适配器教师(DAT)模块:
    • 一个适配器模块是全局适配器的副本,这个适配器保持冻结,并保留了客户端不可知的知识,从而减轻了全局适配器在知识传递的过程中灾难性遗忘的现象
    • 另一个适配器模块在本地客户端进行本地优化,这个适配器可以实现捕捉本地客户端的特定知识,并且用于解决全局适配器中数据异构性的问题
  • 除此之外,DAT和全局适配器之间还实现了互相知识蒸馏

2.5 本篇文献的贡献

提出的方法FedDAT在包含多种视觉-语言(VL)任务和数据异质性的四个多模态基准上取得了最先进的成果。我们的贡献可以总结如下:

  • 我们提出了一种新的方法FedDAT,用于多模态异构联邦学习(FL),这是第一个解决视觉-语言任务中基础模型分布式参数高效微调(PEFT)的FL框架。
  • 我们在四个包含各种视觉-语言任务的异构FL基准上进行了全面的实验。结果表明,FedDAT达到了最先进的成果,显示出比现有的PEFT方法更好的收敛速度和可扩展性。

3. Related Work 相关工作

3.1 参数高效微调(PEFT)用于联邦学习

参数高效微调(PEFT)在集中式机器学习中得到了充分研究(Houlsby等,2019;Liu等,2022;Sung, Cho, 和 Bansal,2022),但其在联邦学习(FL)中的应用仍未得到充分探索。大多数先前的工作只是粗略地将PEFT适用于FL,并集中在单模态任务上:

  1. 图像分类
    • Chen等(2022)和Sun等(2022)评估了现有的PEFT基准与FL的结合,而Guo等(2022)、Guo, Guo和Wang(2023)、Li等(2023)以及Lu等(2023)则通过微调和传输少量可学习的(个性化的)提示来微调CLIP模型(Radford等,2021)。
    • Su等(2022)通过注入轻量级适应模块(适配器)(Houlsby等,2019)解决了异构客户端图像的问题。Yang等(2023)探索了通过FL微调生成性基础模型(扩散模型)(Dhariwal和Nichol,2021)的可能性。
  2. 语言任务
    • Yu, Muñoz和Jannesari(2023)需要公共服务器数据集并优化适配器,以实现BERT类语言模型(Devlin等,2018)的少样本微调。
    • Zhang等(2023)构建了分布式指令微调(Wei等,2021)数据集,并通过低秩适应(LoRA)(Hu等,2021)微调语言模型。
    • Zhuang, Chen和Lyu(2023)系统地分析了在FL中微调大型语言模型的挑战。
  3. 多模态客户数据集
    • Yu等(2023)首次分析了多模态客户数据集的情况,并进行对比表示学习。然而,视觉数据和语言数据是由独立的网络处理的,即没有涉及视觉-语言基础模型。在这项工作中,我们专注于在FL中对大规模视觉-语言模型进行参数高效微调,并解决视觉和/或语言模态中的数据异质性问题。

3.2 视觉-语言基础模型

视觉-语言基础模型在视觉-语言任务方面取得了显著进展(Antol等,2015;Zellers等,2019;Suhr等,2019;Xie等,2019a)。从模态内数据处理的角度来看,主要有两种主流的视觉-语言基础模型结构:

  1. 单流视觉-语言基础模型(Single-stream Vision-Language Foundation models)
    这些模型通过在初始状态使用联合跨模态编码器直接融合初始的语言/视觉表示(Li等,2019;Chen等,2020;Li等,2020b;Su等,2020;Kim, Son, 和 Kim,2021a;Singh等,2022)。
  2. 双流视觉-语言基础模型(Dual-stream Vision-Language foundation models)
    这些模型分别对两种模态应用模态内处理,并使用共享的跨模态编码器(Lu等,2019;Tan和Bansal,2019;Li等,2021b;Huo等,2021)。
    为了展示我们提出的FedDAT在各种视觉-语言基础模型中的适用性,我们精心选择了ViLT(Kim, Son, 和 Kim,2021a)作为代表性的单流视觉-语言基础模型,以及ALBEF(Li等,2021b)作为代表性的双流视觉-语言基础模型。通过使用这些多样的模型,我们有效地展示了FedDAT在视觉-语言学习中的多功能性和鲁棒性。

4. Methodology 方法

4.1 问题描述

  • 每个客户端 k k k拥有其私有的多模态数据集 D k D_k Dk,包含来自视觉模态和文字模态的数据
  • 以视觉问答为例,本地数据集 D k D_k Dk可以被分为 N k N_k Nk个图像-问题-答案三元组 { ( v k i , q k i , a k i ) ∣ i ∈ { 1 , . . . , N k } } \{(v_k^i,q_k^i,a_k^i)|i \in \{1,...,N_k\}\} {(vki,qki,aki)i{1,...,Nk}}。假设 v k i , q k i , a k i v_k^i,q_k^i,a_k^i vki,qki,aki这三者的边际分布在不同客户端之间有所不同,即存在数据异质性
  • 每个客户端的答案池定义为 A k = { a k 1 , . . . . , a k C k } A_k=\{a_k^1,....,a_k^{C_k}\} Ak={ak1,....,akCk},每个客户端k有 C k C_k Ck个真实答案

4.2 PEFT Method: Adaptor

在文献中,适配器(Adapter)和基础模型(Foundation Model)之间的关系如下:

  1. 基础模型的角色:基础模型是预训练的模型,通常具有大量参数,并在大规模数据集上进行预训练。它提供了一个强大的初始模型,包含了广泛的通用知识。

  2. 适配器的角色:适配器是一种轻量级的模块,插入到基础模型中,用于特定任务的微调。适配器通过增加少量参数来调整模型,而不是重新训练整个基础模型。这样,适配器能够以较低的计算和存储成本,适应特定客户端的数据和任务。

  3. 组合使用:在联邦学习(FL)设置中,基础模型 ( f θ ) ( f_\theta ) (fθ) 是所有客户端共享的,它保持冻结状态,不会在本地更新。相反,适配器 ( A s ) ( A_s ) (As) ( A c ) ( A_c ) (Ac) 是可以训练的模块,它们在每个客户端本地优化,以适应客户端特定的数据和任务需求。

  4. 双适配器教师(DAT):在文献中提出的双适配器教师(DAT)方法中,适配器分为两个部分:

  • 全局适配器 A s A_s As:这是由服务器初始化并分发给所有客户端的共享适配器。它在客户端本地更新期间保持冻结,用于保留客户端无关的知识。
  • 本地适配器 A c A_c Ac:每个客户端本地初始化并优化,用于捕获客户端特定的知识。它专注于适应客户端的特定数据分布。
  1. 知识蒸馏:在DAT中,通过互相知识蒸馏(MKD),本地适配器 A c A_c Ac 从冻结的全局适配器 A s ^ \hat{A_s} As^ 中学习,从而实现客户端特定知识和客户端无关知识的有效结合。这种机制确保了在本地优化过程中,全局适配器的客户端无关知识不会被遗忘,同时提升了模型的适应性。

总体来说,适配器作为基础模型的扩展,通过在保持基础模型冻结的情况下进行轻量级微调,实现了在联邦学习环境中的高效适应和优化。

  • 这个小节介绍了一种传统的参数有效微调方法PEFT,即适配器。这个方法能够有效的对联邦学习应用进行调整
  • 在这里,文献作者采用了具有Transformer架构的基础模型,这个架构由多个Transformer块组成
  • 每个Transformer块是由一个自注意力子层,一个全连接前馈网(Fully Connected Feed-Forward Network),以及子层周围残差连接(Residual Connection),并且进行了层归一化。
  • 适配器是由一个下采样线性层 W down ∈ R d × r W_{\text{down}} \in \mathbb{R}^{d \times r} WdownRd×r和一个上采样线性层 W up ∈ R r × d W_{\text{up}} \in \mathbb{R}^{r \times d} WupRr×d构成的瓶颈网络(其中 r r r表示下采样维度)。一个非线性激活函数 ϕ ( ⋅ ) \phi(·) ϕ(),像ReLU,被插入到这两个层之间。
  • 适配器在每个Transformer块中的FFN之后被插入,适配器的计算公式是 h ′ = h + ϕ ( h W d o w n ) W u p h'=h+\phi(hW_{down})W_{up} h=h+ϕ(hWdown)Wup其中 h h h是FFN的归一化输出

4.3 回顾:联邦平均(Federated Averaging)

联邦学习视觉提问训练过程示意图

  • 本小节正式提出了PEFT(适配器)与传统联邦学习算法FedAvg的结合。
  • 在客户端和服务器的通信开始之前,文献作者首先在客户端部署相同的预先训练的基础模型 f θ f_{\theta} fθ
  • 然后,服务器端随机初始化可学习的轻量级模块的参数 w w w,也就是适配器中的两个线性采样层 W d o w n W_{down} Wdown W u p W_{up} Wup的权重矩阵。
  • 随后 w w w就被分配到各个客户端用于沟通和本地优化
  • 一轮沟通的步骤如下(如上方Figure 1所示):
    1. 每个本地客户端并行执行本地训练来优化与冻结的基础模型相结合的轻量级模块 w k w^k wk。在这一步中,最小化损失 L k L_k Lk L k ( w k ) = 1 N k ∑ i = 1 N k L ( y i , f θ ∪ w k ( x i ) ) L_k(w^k)=\frac{1}{N_k}\sum^{N_k}_{i=1} \mathcal{L}(y_i, f_{\theta\cup w^k}(x_i)) Lk(wk)=Nk1i=1NkL(yi,fθwk(xi))在这里 y i y_i yi是输入数据 x i x_i xi的真实标签, L \mathcal{L} L是损失函数,例如用于分类的交叉熵损失
    2. 进行本地更行之后,中央服务器聚合聚合所有从活跃客户端上传的本地模块参数 { w k ∣ 1 < k < K } \{w^k|1<k<K\} {wk∣1<k<K},并执行参数聚合 w ^ ← 1 ∑ k = 1 K N k ∑ k = 1 K N k w k \hat{w} \leftarrow \frac{1}{\sum^{K}_{k=1}N_k}\sum^{K}_{k=1}N_kw^k w^k=1KNk1k=1KNkwk
    3. 最后,在下一轮沟通时,将聚合之后的权重 w ^ \hat{w} w^重新分配给活跃的客户端
    4. 耗尽了所有通信轮次之后,全局模型 f θ ∪ w f_{\theta \cup w} fθw将进行测试

4.4 动机案例研究 Motivational Case Study

  • 首先提出一个问题:哪种类型的知识对于优化一个有前途的基础模型更为重要,是客户特定还是客户无关的?

  • 本篇文献使用DomainNet的降采样版本。DomainNet中是一个图像分类基准,包含六中不同风格的数据:Clipart ©、Infograph (I)、Painting ( P )、Quickdraw (Q)、Real (R) 和 Sketch (S)。通过将这每一种风格的数据分配给每个客户端,由此模拟了不同客户端在特征空间中的数据异质性

  • 我们通过FL使用不同的PEFT方法微调基础模型,即ViT(Dosovitskiy等,2020)。
    在这里插入图片描述

  • 在表一中,文献提供了微调分类头 c l f clf clf和使用适配器 A d a p t o r Adaptor Adaptor进行微调的结果。表中还显示了不涉及联邦通信的客户端本地微调 L L L的结果。

  • 结论一:与 c l f clf clf相比,适配器是一种在联邦设置和独立微调设置中都是一种有效的PEFT方法

  • 结论二:通过联邦学习进行协作训练微调一个基础模型,通常优于本地独立微调模型

  • 结论三:客户特定的分类头和适配器在某些客户端上显示出优势,即 P P P S S S

  • 以上三个结论说明了:客户特定和客户无关的知识都是重要的,在联邦通信期间都不应该被遗忘。

4.5 Proposed Method

  • 介绍提出的算法FedDAT-Federated Dual Adaptor Teacher
  • FedDAT的训练过程包括两个部分:
    • 训练开始时,服务器初始化共享适配器 A s A_s As。在每一轮通信当中,活跃客户端接收到 A s A_s As,然后并行执行本地客户端更新
    • 随后服务器端对所有从客户端上传上来的优化参数 { A s k ∣ 1 ≤ k ≤ K } \{A^k_s|1\leq k\leq K\} {Ask∣1kK}取平均并进行聚合,用于下一轮通信中的服务器端 A s A_s As的初始化
  • 本地客户端的更新包含两个部分,将在下面两个小章节中进行详细介绍
4.5.1 Dual-Adaptor Teacher

在这里插入图片描述

  • 在第一轮通信之前。每个客户端初始化本地适配器 A c A_c Ac以及基础模型 f θ f_\theta fθ,使用相同的训练权重 θ \theta θ
  • 随后,每个客户端接收来自服务器的 A s A_s As参数,并将其保留为 A s ^ \hat{A_s} As^,并在本地客户端更新时保持冻结。
  • 本篇文献将 A c A_c Ac A s ^ \hat{A_s} As^结合为双适配器教师Dual-Adaptor Teacher
  • 在DAT中,本篇文献严格限制 A c A_c Ac只在本地进行更新。通过个性化 A c A_c Ac,能够使其专注于客户端的特点知识,对于客户端的数据异质性非常重要
  • 同时,冻结的 A s ^ \hat{A_s} As^用于保留适配器 A s A_s As获取到的客户端无关知识。
  • 给定Transformer框架中FFN层的归一化输出 h h h,DAT执行下列变换 h ′ ← h + 1 2 ϕ ( h ⋅ W s d o w n ^ ) ⋅ W s u p ^ + 1 2 ϕ ( h ⋅ W c d o w n ) ⋅ W c u p h'\leftarrow h+\frac{1}{2}\phi(h\cdot \hat{W_s^{down}})\cdot \hat{W_s^{up}}+\frac{1}{2}\phi(h\cdot W_c^{down})\cdot W_c^{up} hh+21ϕ(hWsdown^)Wsup^+21ϕ(hWcdown)Wcup其中 W s ^ \hat{W_s} Ws^ W c W_c Wc分别是 A s ^ \hat{A_s} As^ A c A_c Ac的权重矩阵
  • 之后将执行 T T T次本地更新步骤,在这些步骤中,优化共享适配器 A s A_s As和DAT模块
  • 通过使用双适配器教师(DAT)作为每个客户端本地优化 A s A_s As的指导,我们的目标是将客户端特定的知识提炼到 A s A_s As中,并减轻 A s A_s As在其客户端无关知识上的遗忘。因此,我们应用互相知识蒸馏(MKD)来实现高效的知识转移,以下将详细介绍。
4.5.2 Mutual Knowledge Distillation( M K D MKD MKD)

在这里插入图片描述

  • M K D MKD MKD通过 L K L S L_{KL}^S LKLS L K L D A T L_{KL}^{DAT} LKLDAT执行双向知识蒸馏 L K L S = K L ( z s ( x ) ∣ ∣ z D A T ( x ) ) , L K L D A T = K L ( z D A T ( x ) ∣ ∣ z s ( x ) ) L_{KL}^S=\mathcal{KL}(z_s(x)||z_{DAT}(x)), L_{KL}^{DAT}=\mathcal{KL}(z_{DAT}(x)||z_s(x)) LKLS=KL(zs(x)∣∣zDAT(x)),LKLDAT=KL(zDAT(x)∣∣zs(x))其中 K L \mathcal{KL} KL表示 Kullback-Leibler 散度 z s z_s zs z D A T z_{DAT} zDAT分别是注入了 A s A_s As和DAT的基础模型的预测logits,这种配置允许共享适配器 A s A_s As捕获DAT中存储的客户端特定知识和客户端无关知识( L K L S L_{KL}^S LKLS)。此外,还应用 A s A_s As作为DAT的知道( L K L D A T L_{KL}^{DAT} LKLDAT),为防止数据的过拟合,考虑到每个客户端本地数据的稀缺性
  • L C E s = ∑ c = 1 C I ( x , c ) ⋅ log ⁡ ( σ ( z s ( x ) ) ( c ) ) , L_{CE}^s = \sum_{c=1}^{C} \mathcal{I}(x, c) \cdot \log(\sigma(z_s(x))^{(c)}), LCEs=c=1CI(x,c)log(σ(zs(x))(c)), L C E D A T = ∑ c = 1 C I ( x , c ) ⋅ log ⁡ ( σ ( z D A T ( x ) ) ( c ) ) L_{CE}^{DAT} = \sum_{c=1}^{C} \mathcal{I}(x, c) \cdot \log(\sigma(z_{DAT}(x))^{(c)}) LCEDAT=c=1CI(x,c)log(σ(zDAT(x))(c))其中, I ( x , c ) \mathcal{I}(x, c) I(x,c) 是一个二值指示符(0或1),如果 c c c x x x 的真实标签,则为1; σ \sigma σ是softmax函数。因此,我们的目标是训练注入了 A s A_s As 或 DAT 的基础模型,以正确分类训练样本 x x x
  • 最后,结合MKD和 L C E L_{CE} LCE 产生了 A s A_s As 和 DAT 的优化目标: L s = L C E s + α L K L s , L^s = L_{CE}^s + \alpha L_{KL}^s, Ls=LCEs+αLKLs, L D A T = L C E D A T + β L K L D A T L^{DAT} = L_{CE}^{DAT} + \beta L_{KL}^{DAT} LDAT=LCEDAT+βLKLDAT其中,α和β是加权系数。虽然DAT和A都是随机初始化的,但随着训练的进行,它们变得更具信息性。为了反映这一观察结果,我们对α和β应用指数上升时间表。尽管我们的方法的复杂设计,FedDAT表示相同的推理成本和通信开销的PEFT方法适配器,其中只有作为传输和应用在部署。

5. Experiment and Analyses

  • 文献比较了FedDAT与其他集中式PEFT方法在四个异构FL基准包含不同的视觉语言任务。
  • 文献通过消融研究证明了FedDAT组件的有效性。
  • 文献分析了FedDAT有前途的收敛速度和可扩展性。

5.1 基准实验

5.1.1 数据集描述

我们在不同类型的数据异质性(包括视觉、文本和任务异质性)的视觉-语言(VL)基准上进行了实验。以下是这些基准的介绍:

  • 领域:我们采用了来自不同领域的5个常见VQA数据集,即VizWiz(Gurari等,2018)、COCOQA(Ren, Kiros, 和 Zemel,2015)、Art(Garcia等,2020)、GQA(Hudson 和 Manning,2019)和Abstract(Antol等,2015)。我们将每个数据集分配给一个客户端,导致视觉和语言模态的异质性。图4中提供了基准中的VQA三元组示例。

  • 功能与场景:我们采用并拆分了CLOVE基准(Lei等,2023)为场景和功能基准,分别包含从6个不同视觉环境和5个不同功能中收集的VQA三元组。来自一个场景(功能)的三元组被分配给一个客户端,导致场景(功能)基准中的视觉(文本)异质性。

  • 任务:我们采用并修改了CLiMB基准(Srinivasan等,2022),其中包含4个VL任务,分别是VQA(Antol等,2015)、视觉推理的自然语言(NLVR)(Suhr等,2018)、视觉蕴含(VE)(Xie等,2019b)和视觉常识推理(VCR)(Zellers等,2019)。每个客户端拥有一个数据集的数据,导致不同客户端之间的任务异质性。

我们对原始数据集进行下采样,以模拟先前研究中描述的客户端本地数据稀缺性(McMahan等,2017),更多细节见附录。

5.1.2 实现细节

在这里插入图片描述

  • 任务异构基准:对于任务异构基准(Task),我们采用仅有Transformer编码器的骨干网络(Srinivasan等,2022),即ViLT(Kim, Son, 和 Kim,2021b)和VAuLT(Chochlakis等,2022)。对于其余三个基准,我们添加了另一个编码器-解码器骨干网络,即ALBEF(Li等,2021a)。
  • 比较方法:我们将FedDAT与各种适用于联邦学习的集中式PEFT方法进行比较,包括LoRA(Hu等,2021)、prompt-tuning(Guo等,2022)和bias-tuning(Cai等,2020)。我们还提供了分类头clf和Adapter的独立客户端优化结果(标记为“L”)。此外,我们提供了模型的完全微调结果(full),作为一种理想方法(标记为∗),考虑到在联邦学习中传输整个基础模型的不可行性。
  • 客户端特定分类头:为了处理不同客户端中的不同答案池,我们为ViLT和VAuLT加入了客户端特定的分类头,并为ALBEF应用了客户端特定的答案列表。
  • 超参数搜索:为了公平比较不同的集中式PEFT算法和FedDAT,我们在不同基准中对所有方法应用了相同的超参数搜索。所有实验均重复了3个随机种子。超参数细节在附录中详细说明。
5.1.3 结果与分析总结

在这里插入图片描述

  • 表现优越:FedDAT在Domain基准上的所有架构中都优于所有基线方法,平均性能提升最多达4.55%,显示出其对基于编码器和编码器-解码器的视觉-语言(VL)模型的良好适应性。
  • 通信效率:FedDAT的通信开销与单个Adapter相同,仅增加和优化基础模型总参数的不到1%,适用于通信带宽受限的FL系统。
  • 缩小性能差距:FedDAT缩小了PEFT方法与完全微调方法之间的性能差距,且在ViLT和VAuLT模型中,FedDAT优于理想方法full-L,证明了引入客户端特定知识的有效性。
  • 客户端独立优化的优势:为每个客户端独立优化适配器(Adapter-L)在VAuLT中表现优于共享适配器(Adapter),进一步支持了引入客户端特定知识的有效性。
  • 多基准测试改进:在Function、Scene和Task基准上,FedDAT分别提供了最多6.02%、7.94%和1.09%的性能提升,证明了其在不同类型数据异质性下的广泛适用性。

总体来说,FedDAT在多种基准测试中展示了其强大的适应性、通信效率和在引入客户端特定知识方面的有效性。

5.2 消融研究总结

为了说明FedDAT中不同组件的重要性,我们对ViLT在三个基准上进行了消融研究。结果如表4所示。以下是主要发现:

  1. 优化过程

    • 单独使用本地适配器或冻结适配器:单独优化本地适配器 A c A_c Ac 或将冻结适配器 A s ^ \hat{A_s} As^ 作为教师,带来的性能提升非常有限。这表明我们的双适配器教师设计(DAT)的有效性。
    • 单向知识蒸馏:仅从DAT向共享适配器 A s A_s As 蒸馏知识,即忽略双向MKD,带来了明显的性能提升。
    • 组合策略:结合双向MKD和DAT设计,实现了最佳结果,这进一步证明了它们的互补性。
  2. 推理选择

    • 最终DAT模块和本地适配器的评估:我们评估了每个客户端的最终DAT模块( A c A_c Ac A s ^ \hat{A_s} As^的组合)和本地适配器 A c A_c Ac
    • 推理效率和问题设置:在联邦学习中微调全局基础模型时,不需要进一步的个性化。考虑到推理效率和问题设置,我们采用共享适配器 A s A_s As 进行推理,并且达到了最有希望的结果。

总体而言,这项研究展示了双适配器教师设计和双向知识蒸馏的互补性和有效性,强调了它们在FedDAT中的重要作用。

5.3 收敛性分析总结

在这里插入图片描述
在图5中,我们展示了FedDAT与最有前途的PEFT方法Adapter在Domain基准上的收敛性分析。以下是主要发现:

  • 客户端准确性:我们报告了每轮通信后客户端在其对应本地测试集上的准确性。
  • 收敛速度:尽管FedDAT采用了更复杂的优化模式(即DAT和MKD的组合),但FedDAT的学习曲线仍显示出比单一Adapter更快的收敛速度。
  • 快速性能提升:值得注意的是,FedDAT在5轮通信后(即总通信预算的25%)已经取得了显著的性能提升。

总的来说,FedDAT不仅在优化策略上更为复杂,但仍能实现比单一Adapter更快的收敛速度,并在较少的通信轮数内取得明显的性能提升。

5.4 可扩展性分析总结

为了展示FedDAT在各种应用场景下的有效性,我们进行了不同客户端数量的实验。以下是主要发现和实验细节:

  1. 实验设置

    • 数据分割:我们将原始CLOVE数据集的每个功能数据分成5个子集,每个子集包含相等数量的训练数据,并分配给一个客户端。这种设置遵循(McMahan等,2017)中描述的客户端数据稀缺性。
    • 客户端数量:我们进行了选择1、2、3、4和5个客户端(子集)的实验,总共在Function基准上有5、10、15、20和25个客户端参与联邦通信。同样的分割策略也应用于Scene基准中的6个不同视觉环境,并进行了相同的实验。
  2. 实验结果

    • 性能提升:在所有设置中,无论训练数据量的大小,FedDAT始终优于Adapter。特别是,对于ALBEF模型,性能差距高达10%;对于ViLT模型,性能差距高达6%。
    • 可扩展性:这些结果表明,FedDAT在处理涉及大量客户端和增加通信预算的复杂联邦学习应用中具有良好的可扩展性。

总的来说,FedDAT在不同客户端数量和数据量的实验中展示了其优越的性能和良好的可扩展性,能够有效处理复杂的联邦学习应用。

6. 结论

  • 和综述中的内容大致相同
  • 在这项工作中,我们提出了第一个解决异构联邦学习(FL)中基础模型参数高效微调(PEFT)问题的FL框架,涵盖了各种视觉-语言任务。所提出的方法名为FedDAT,通过使用双适配器教师(DAT)和互相知识蒸馏(MKD)来优化共享适配器。与现有的集中式PEFT方法相比,FedDAT在四个包含各种视觉-语言任务的FL基准上取得了有希望的结果,证明了其有效性。额外的实验表明其在涉及更大分布式系统和训练预算的复杂FL设置中的适用性。
  • 13
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值