FedDAT: An Approach for Foundation Model Finetuning in Mu ti-Modal Heterogeneous Federated Learning

【CVPR 2024】联邦学习+基础模型微调

论文地址:[2308.12305] FedDAT: An Approach for Foundation Model Finetuning in Multi-Modal Heterogeneous Federated Learning (arxiv.org)

一、摘要

最近,基础模型在多模态学习方面表现出显着的进步。这些模型配备了数百万个(或数十亿个)参数,通常需要大量数据进行微调。然而,由于不同的隐私法规,从不同部门收集和集中训练数据变得具有挑战性。联邦学习 (FL) 作为一种有前途的解决方案出现,使多个客户端能够在不集中本地数据的情况下协同训练神经网络。为了减轻客户端计算负担和通信开销,以前的工作已经调整了 FL 的参数高效微调 (PEFT) 方法。因此,在联邦通信过程中,只有一小部分模型参数被优化和通信。然而,以往的研究大多集中在单一模态上,而忽略了一种常见的现象,即客户之间存在数据异质性。因此,在这项工作中,我们提出了一个针对异构多模态 FL 量身定制的微调框架,称为联邦双自适应教师 (FedDAT)。具体来说,我们的方法利用双适配器教师 (DAT) 通过正则化客户端本地更新并应用相互知识蒸馏 (MKD) 来解决数据异质性,以实现高效的知识转移。FedDAT 是第一个能够为各种异构视觉语言任务实现基础模型的高效分布式微调的方法。为了证明其有效性,我们在四个具有不同类型数据异质性的多模态 FL 基准上进行了广泛的实验,其中 FedDAT 大大优于适用于 FL 的现有集中式 PEFT 方法。

二、动机

解决问题:采用基础视觉-语言预训练模型解决联邦学习中客户端数据模态异构问题。文中以VQA(视觉语言问答)问题举例。

三、方法

3.2 PEFT Method: Adapter

h'=h+\phi(hW_{down})W_{up},

1. Adapter微调更强 2.联邦平均效果优于客户端独立微调 3. 特定于客户端的微调在P和S上比较重要

指出:1. Adapter微调更强 2.联邦平均效果优于客户端独立微调 3. 特定于客户端的微调在P和S上比较重要

3.5 方法

服务器更新

其实就是联邦平均A_{s}

客户端更新

(1) Dual-Adapter Teacher (DAT):

通过利用 DAT 作为每个客户端 A_{s} 局部优化的指导,我们的目标是将特定于客户端的知识提取到 A_{s} 中,并减轻 A_{s} 对其与客户端无关的知识的遗忘。

DAT由客户端本地AdapterA_{c}和复制服务器的\hat{A}_{s}组成,\hat{A}_{s}训练过程中冻结。

DAT的特征处理办法:

h'\leftarrow h+\frac{1}{2}\phi(h\cdot\hat{W}_{s}^{down})\cdot\hat{W}_{s}^{up}+\frac{1}{2}\phi(h\cdot W_{c}^{down})\cdot W_{c}^{up},

(2) Mutual Knowledge Distillation (MKD)

互更新:其实就是用DAT的预测logits来指导服务器adapter的训练,用服务器的预测logits来指导DAT的训练

L_{\mathrm{KL}}^s=\mathcal{KL}(z_s(x)||z_{\mathrm{DAT}}(x)),\quad L_{\mathrm{KL}}^{\mathrm{DAT}}=\mathcal{KL}(z_{\mathrm{DAT}}(x)||z_s(x)),

分类损失:

服务器:L_{\mathrm{CE}}^S=\sum_{c=1}^C\mathcal{I}(x,c)\cdot log(\sigma(z_s(x))^{(c)}),

客户端:L_{\mathrm{CE}}^{\mathrm{DAT}}=\sum_{c=1}^C\mathcal{I}(x,c)\cdot log(\sigma(z_{\mathrm{DAT}}(x))^{(c)}),

总损失:

\begin{aligned}L^{s}=&L_{\mathrm{CE}}^s+\alpha L_{\mathrm{KL}}^s,\\L^{\mathrm{DAT}}=&L_{\mathrm{CE}}^{\mathrm{DAT}}+\beta L_{\mathrm{KL}}^{\mathrm{DAT}},\end{aligned}

四、实验

VQA问题上的实验

5个不同函数,6个不同视觉环境,和四个不同任务(VQA 、视觉推理自然语言 (NLVR) 、视觉蕴涵 (VE) 和视觉常识推理 (VCR))的实验结果。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值