NeurIPS 2023 | 多模态基础大模型的高效微调

最新推荐文章于 2025-03-02 21:41:09 发布

PaperWeekly

最新推荐文章于 2025-03-02 21:41:09 发布

阅读量1.3k

点赞数 1

原文链接：https://mp.weixin.qq.com/s?__biz=MzIwMTc4ODE0Mw==&mid=2247640544&idx=3&sn=9b3d85fc9cf852025f3733b8d6140bd8&chksm=96e47a60a193f3763c792873caab3f1c461012ee088b79cbfb62fcb7eb0b7a3426e82337744a&scene=126&sessionid=0

版权

©作者 | Wang.hx

单位 | 北京大学

很荣幸我们近期的工作被 NeurIPS 2023 录用，这是我们第一篇拓展至多模态领域的高效微调的工作，在该工作中我们首次采用模式逼近（mode apprximation）的方法来进行大模型的轻量化高效微调，仅需训练预训练大模型 0.04% 的参数。同时我们设计了两个启发性模块来增强高效微调时极低参数条件下的模态对齐。实验上，我们在六大跨模态基准测试集上进行全面评估显示,我们的方法不仅超越当前的 SOTA，还在一些任务上优于全量微调方法。

论文标题：

Parameter-efficient Tuning of Large-scale Multimodal Foundation Model

论文链接：

https://arxiv.org/abs/2305.08381

代码链接：

https://github.com/WillDreamer/Aurora

大模型的高效微调是一个非常新且日渐繁荣的 task，欢迎小伙伴们一起学习交流。

背景

深度学习的大模型时代已经来临,越来越多的大规模预训练模型在文本、视觉和多模态领域展示出杰出的生成和推理能力。然而大模型巨大的参数量有两个明显缺点。第一，它带来巨大的计算和物理存储成本，使预训练和迁移变得非常昂贵。第二，微调限制了预训练知识在小规模数据量的下游任务中的应用效果。这两点阻碍了大模型从特定数据集扩展到更广泛场景。

为缓解预训练大模型的高昂成本，一系列参数高效微调方法相继提出。其通用范式是冻结大模型的骨干网络，并引入少量额外参数。最近，一些工作开始关注多模态领域的高效微调任务，例如 UniAdapter [1]、VL-Adapter [2] 和 MAPLE [3]。但是，它们的通用思路是将自然语言处理领域的现有架构用于多模态模型并组合使用,然后直接在单模态和多模态分支的骨干网络中插入可训练参数以获得良好表现。直接、简单的设计无法将参数高效迁移的精髓融入多模态模型。

此外，还有两个主要挑战需要面对: 1）如何在极轻量级高效微调框架下进行知识迁移；2）在极低参数环境下如何提高各模态间的对齐程度。

▲ 图1. 与现有主流的高效微调方法的对比

在这篇文章中，我们尝试解决这两种挑战，贡献可以总结为：

介绍了名为 Aurora 的多模态基础大模型高效微调框架，它解决了当前大规模预训练和微调策略的局限性；
提出了模式近似（mode approximation）方法来生成轻量级可学习参数，并提出了两个启发性模块来更好地增强模态融合；
通过六个跨模态任务和两个零样本任务进行实验验证，结果显示 Aurora 相比其他方法取得了最先进的性能，同时也只使用最少的可学习参数。

高效微调的轻量化架构的设计

模式近似（mode apprximation）的思想源自于 CANDECOMP/PARAFAC (CP) 分解，CP 分解能够将张量分解为一系列秩为一的张量，并通过外积的形式进行表示。分解方式可以参考上面的图 1。

模式近似作为 CP 分解的拟过程，它会为多模态基础大模型中每个模态分支中的每个权重矩阵初始化可学习的 mode factors（U、V 和 P）和可学习的系数向量 λ。其中 U 和 P 是随机初始化的，而 V 被设置为零。mode factors 在全局共享，可以实现权重矩阵之间的跨模态交互和知识共享。模式近似具体可以表示为以下公式：

其中是分解的秩的大小，即将要迁移学习的新权重分解成个秩为一的张量，且是中的元素。在网络前向传播过程中，我们使用分解的逆过程来实现模态近似，具体如下：

其中是预训练权重，是某一个模态的输入，是高效微调后的隐层特征。通过模式近似我们能够实现极其轻量化的参数高效微调。

▲ Aurora的整体过程示意图

高效微调的模态对齐的设计

3.1 Informative Context Enhancement

该模块的目标是为了实现更好的模态对齐，在交叉注意力模块后的融合特征中提供提示文本来更好的激活。受“上下文学习”这一领域的进步启发，我们意识到为提示词提供示范模板是很重要的。最直观的方法是对图像与文本对进行对齐,以获得更多跨模态上下文信息。

但是，即使与相关图像区域匹配，描述这些区域的文本可能还是有多个选择。一些文本可能准确概括图像内容，而另一些可能不行。在没有事先匹配文本信息的先验情况下，我们决定引入上下文增强模块来涵盖各个方面的可能的文本信息。

我们基于 BLIP [4] 中的 image-grounded 文本分支，设计一种特别的描述模板来进行跨模态提示学习。给定 image-grounded 文本分支的融合特征和自注意模块的文本 query 特征，我们利用批数据中的所有维度为的 query 特征作为上下文来进行增强。具体来说，我们计算和每一个文本 query 特征之间的注意力得分：

这种形式可以自适应地吸收上下文的 query 信息来获得增强的融合特征用于图像文本匹配损失：

3.2 Gated Query Transformation

该模块的目标是解决多模态融合分支网络较深导致的训练过程中的文本信息消失造成的多模态信息难以对齐。与现有方法直接将交叉注意块的融合特征与自注意块的query特征连接作为残差不同，我们学习一个 gated query 函数来平衡两种模态的贡献。

我们的 gated query transformation 包括两个步骤：

第一步，我们实现该转换为和为初始化为零的可学习的转换矩阵和偏置带有激活函数；

第二步，我们计算和的乘积并用 softmax 来得到query gate 。

因此，query gate 明确量化 query 在计算更新融合特征的贡献：。

实验结果

4.1 实验设置

数据集与基准比较。我们在六个跨模态任务领域的 benchmark 上评估了 Aurora，这些任务包括图片文本检索、问答 (QA)、视频文本检索和视频 QA。我们将 Aurora 与两类方法进行比较：完全微调后的 SOTA 方法以及 Frozen 重要部分的 LoRA 和 UniAdapter 方法。更多细节请参阅附录。

实现细节。我们的实现基于 Salesforce 开源代码库。与 UniAdapter 一致，我们使用 BLIP-base 作为所有多模态下游任务的视觉语言初始化权重。我们使用 PyTorch 在 8 台 NVIDIA V100 GPU (32G) 设备上实现所有实验。我们使用 AdamW 优化器，设置权重衰减为 0.05，学习率通过网格搜索得到为 1e-4。需要注意的是，在微调过程中，参数组只更新交叉注意模块的权重，backbone 初始化权重不更新。

4.2 实验结果