【论文笔记】FedDAT：一种用于多模态异构联邦学习中基础模型微调的方法

BlueberrymanOnTheWay

已于 2024-08-05 12:21:40 修改

阅读量2.6k

点赞数 41

分类专栏：论文阅读笔记文章标签：论文阅读深度学习分布式人工智能

于 2024-08-03 18:40:55 首次发布

本文链接：https://blog.csdn.net/blueberryman/article/details/140865058

版权

FedDAT: An Approach for Foundation Model Finetuning in Multi-Modal Heterogeneous Federated Learning

1. Abstract 综述

引出背景：基础模型发展得很迅速，但是由于不同的法律法规，收集基础模型的训练数据还是具有一定的难度和挑战性
通过联邦学习，可以在各个客户端协作训练神经网络，而不需要集中本地数据。
联邦学习方法：PEFT Parameter-efficient Finetuning来减轻客户端的计算负担和通信开销
新出现的问题：以往的研究大多集中在单一模态上，而忽略了跨客户端的数据异构性的存在，
为了解决这个新出现的问题，这篇论文提出了一个新的框架——联邦双适配器教师FDAT Federated Dual-Aadapter Teacher(FedDAT)
双适配器教师DAT通过正则化客户端本地更新和应用互相知识蒸馏来解决数据异构性问题
经过实验证明，FedDAT的性能优于PEFT

2. Introduction 引言

2.1 基础模型训练的窘境

首先还是先阐述了一下由于一些政策的限制，收集一些数据具有一定的困难

2.2 解决窘境的方法——联邦学习

联邦学习可以很好地解决上述问题，联邦学习允许多个客户端使用分散的数据源来协作优化基础模型。
联邦学习已经有一些方法可以进行优化。例如，FedAvg方法通过对多个客户端上传的优化模型权重取平均值来更新模型
联邦学习的优点：
- 增强了服务器和客户端之间的交流效率
- 避免了基础模型直接访问本地数据，保护了客户的隐私

2.3 联邦学习的局限性

现在的一些基础模型具有数十亿的参数，通过联邦学习优化这个数量级的参数，实现客户端和服务器之间的传输会带来大量的负担和通信开销
PEFT提供了一种解决方案，这种方法只对一小部分参数进行优化和微调
在联邦学习领域中，现有的一些作品是将PEFT和传统方法FedAvg进行基本组合
然后这些组合都是只考虑了一种基本任务，通常只有单一模态，只考虑文本或者视觉的任务。并且，这些作品都忽略了数据异构性的问题
数据异构性，即不同客户端中的数据都不是独立的相同的分布，每个客户端中的数据都不是一样的。数据异构性在客户端本地更新的期间可能会造成模型漂移，以及导致聚合服务器模型的不稳定和次优收敛
在本篇文献中，提出了FedDAT来解决上问题

2.4 FedDAT方法大致内容

FedDAT在基础模型中集成了一个全局适配器，这个全局适配器可以在联邦通信中进行优化和更新
FedDAT使用了双适配器教师（DAT）模块：
- 一个适配器模块是全局适配器的副本，这个适配器保持冻结，并保留了客户端不可知的知识，从而减轻了全局适配器在知识传递的过程中灾难性遗忘的现象
- 另一个适配器模块在本地客户端进行本地优化，这个适配器可以实现捕捉本地客户端的特定知识，并且用于解决全局适配器中数据异构性的问题
除此之外，DAT和全局适配器之间还实现了互相知识蒸馏

2.5 本篇文献的贡献

提出的方法FedDAT在包含多种视觉-语言（VL）任务和数据异质性的四个多模态基准上取得了最先进的成果。我们的贡献可以总结如下：

我们提出了一种新的方法FedDAT，用于多模态异构联邦学习（FL），这是第一个解决视觉-语言任务中基础模型分布式参数高效微调（PEFT）的FL框架。
我们在四个包含各种视觉-语言任务的异构FL基准上进行了全面的实验。结果表明，FedDAT达到了最先进的成果，显示出比现有的PEFT方法更好的收敛速度和可扩展性。

3. Related Work 相关工作

3.1 参数高效微调（PEFT）用于联邦学习

参数高效微调（PEFT）在集中式机器学习中得到了充分研究（Houlsby等，2019；Liu等，2022；Sung, Cho, 和 Bansal，2022），但其在联邦学习（FL）中的应用仍未得到充分探索。大多数先前的工作只是粗略地将PEFT适用于FL，并集中在单模态任务上：

图像分类：
- Chen等（2022）和Sun等（2022）评估了现有的PEFT基准与FL的结合，而Guo等（2022）、Guo, Guo和Wang（2023）、Li等（2023）以及Lu等（2023）则通过微调和传输少量可学习的（个性化的）提示来微调CLIP模型（Radford等，2021）。
- Su等（2022）通过注入轻量级适应模块（适配器）（Houlsby等，2019）解决了异构客户端图像的问题。Yang等（2023）探索了通过FL微调生成性基础模型（扩散模型）（Dhariwal和Nichol，2021）的可能性。
语言任务：
- Yu, Muñoz和Jannesari（2023）需要公共服务器数据集并优化适配器，以实现BERT类语言模型（Devlin等，2018）的少样本微调。
- Zhang等（2023）构建了分布式指令微调（Wei等，2021）数据集，并通过低秩适应（LoRA）（Hu等，2021）微调语言模型。
- Zhuang, Chen和Lyu（2023）系统地分析了在FL中微调大型语言模型的挑战。
多模态客户数据集：
- Yu等（2023）首次分析了多模态客户数据集的情况，并进行对比表示学习。然而，视觉数据和语言数据是由独立的网络处理的，即没有涉及视觉-语言基础模型。在这项工作中，我们专注于在FL中对大规模视觉-语言模型进行参数高效微调，并解决视觉和/或语言模态中的数据异质性问题。

3.2 视觉-语言基础模型

视觉-语言基础模型在视觉-语言任务方面取得了显著进展（Antol等，2015；Zellers等，2019；Suhr等，2019；Xie等，2019a）。从模态内数据处理的角度来看，主要有两种主流的视觉-语言基础模型结构：

单流视觉-语言基础模型（Single-stream Vision-Language Foundation models）：
这些模型通过在初始状态使用联合跨模态编码器直接融合初始的语言/视觉表示（Li等，2019；Chen等，2020；Li等，2020b；Su等，2020；Kim, Son, 和 Kim，2021a；Singh等，2022）。
双流视觉-语言基础模型（Dual-stream Vision-Language foundation models）：
这些模型分别对两种模态应用模态内处理，并使用共享的跨模态编码器（Lu等，2019；Tan和Bansal，2019；Li等，2021b；Huo等，2021）。
为了展示我们提出的FedDAT在各种视觉-语言基础模型中的适用性，我们精心选择了ViLT（Kim, Son, 和 Kim，2021a）作为代表性的单流视觉-语言基础模型，以及ALBEF（Li等，2021b）作为代表性的双流视觉-语言基础模型。通过使用这些多样的模型，我们有效地展示了FedDAT在视觉-语言学习中的多功能性和鲁棒性。

4. Methodology 方法

4.1 问题描述

每个客户端 $k$ 拥有其私有的多模态数据集 $D_k$ ，包含来自视觉模态和文字模态的数据
以视觉问答为例，本地数据集 $D_k$ 可以被分为 $N_k$ 个图像-问题-答案三元组 $\{(v_k^i,q_k^i,a_k^i)|i \in \{1,...,N_k\}\}$ 。假设 $v_k^i,q_k^i,a_k^i$ 这三者的边际分布在不同客户端之间有所不同，即存在数据异质性
每个客户端的答案池定义为 $A_k=\{a_k^1,....,a_k^{C_k}\}$ ，每个客户端k有 $C_k$ 个真实答案

4.2 PEFT Method: Adaptor

在文献中，适配器（Adapter）和基础模型（Foundation Model）之间的关系如下：

基础模型的角色：基础模型是预训练的模型，通常具有大量参数，并在大规模数据集上进行预训练。它提供了一个强大的初始模型，包含了广泛的通用知识。

适配器的角色：适配器是一种轻量级的模块，插入到基础模型中，用于特定任务的微调。适配器通过增加少量参数来调整模型，而不是重新训练整个基础模型。这样，适配器能够以较低的计算和存储成本，适应特定客户端的数据和任务。

组合使用：在联邦学习（FL）设置中，基础模型 $f_\theta )$ 是所有客户端共享的，它保持冻结状态，不会在本地更新。相反，适配器 $A_s )$ 和 $A_c )$ 是可以训练的模块，它们在每个客户端本地优化，以适应客户端特定的数据和任务需求。

双适配器教师（DAT）：在文献中提出的双适配器教师（DAT）方法中，适配器分为两个部分：

全局适配器 $A_s$ ：这是由服务器初始化并分发给所有客户端的共享适配器。它在客户端本地更新期间保持冻结，用于保留客户端无关的知识。

本地适配器 $A_c$ ：每个客户端本地初始化并优化，用于捕获客户端特定的知识。它专注于适应客户端的特定数据分布。

知识蒸馏：在DAT中，通过互相知识蒸馏（MKD），本地适配器 $A_c$ 从冻结的全局适配器 $\hat{A_s}$ 中学习，从而实现客户端特定知识和客户端无关知识的有效结合。这种机制确保了在本地优化过程中，全局适配器的客户端无关知识不会被遗忘，同时提升了模型的适应性。

总体来说，适配器作为基础模型的扩展，通过在保持基础模型冻结的情况下进行轻量级微调，实现了在联邦学习环境中的高效适应和优化。

这个小节介绍了一种传统的参数有效微调方法PEFT，即适配器。这个方法能够有效的对联邦学习应用进行调整
在这里，文献作者采用了具有Transformer架构的基础模型，这个架构由多个Transformer块组成
每个Transformer块是由一个自注意力子层，一个全连接前馈网(Fully Connected Feed-Forward Network)，以及子层周围残差连接(Residual Connection)，并且进行了层归一化。
适配器是由一个下采样线性层 $W_{\text{down}} \in \mathbb{R}^{d \times r}$ 和一个上采样线性层 $W_{\text{up}} \in \mathbb{R}^{r \times d}$