UniAdapter: Unified Parameter-Efficient Transfer Learning for Cross-modal Modeling

最新推荐文章于 2025-05-19 10:04:29 发布

qgh1223

最新推荐文章于 2025-05-19 10:04:29 发布

阅读量1.4k

点赞数 26

分类专栏：有效参数迁移文章标签：人工智能迁移学习深度学习

本文链接：https://blog.csdn.net/qgh1223/article/details/135459903

版权

UniAdapter: Unified Parameter-Efficient Transfer Learning for Cross-modal Modeling

论文链接：https://arxiv.org/pdf/2302.06605.pdf
源码链接：https://hub.nuaa.cf/RERV/UniAdapter

简介

预训练-微调范式在自然语言处理，计算机视觉和多模态建模中取得了巨大的成功，其中模型首先用大规模数据预训练，然后针对每个下游任务进行全微调。最近的研究进一步发现，通过引入额外的可训练模块来微调/调整基础模型以适应新的模态。近期的研究进一步发现，通过引入额外的可训练模块来微调/调整基础模型以适应新的模态，显著优于以前的研究，例如用于图像到视觉传输的时间建模模块。

然而，随着基础模型变得越来越大（例如具有175B参数的GPT-3）和下游任务数量的增加，特别是在多模态场景中，传统的全微调变得不切实际，因为它需要大量计算和存储需求。寻找新的方法，在不产生过高成本情况下，有效地将现有基础模型迁移到下游任务，成为该领域一项重要挑战。

目前已经探索了上述挑战的替代方法。一种简单的方法使用线性探索，它几乎冻结整个模型，并且只为每个任务调整了一个轻量化头。它只是次优的，因为表示和特征空间是固定的。另一条研究路线是在基础模型中添加非常大的额外模块（例如Flamingo）的少样本学习缓解这个问题，这仍然远未达到全微调策略。

近年来，在许多研究领域，参数有效适配器在推广基础模型方面取得了显著的成果。在NLP和CV中，可调整适配器和可调整提示向量在迁移学习过程中使用冻结backbone。它们还显示出跨模态建模的巨大潜力，因为它们能够将预训练的基础模型从跨木平台迁移到单模态（例如视频分类）或其他下游任务（例如图像-文本推理）。然而，上述研究通常考虑单模态/跨模态到不同下游任务。考虑到多模态建模中各种下游任务（例如，视频文本检索、图像文本检索、视频和视觉问答）。同时以前的方法通常应用适配器，而不考虑它们之间的跨模态交互知识共享，这是跨模态建模关键。

受到上述观察启发，本文研究了一个关键问题，即有效地将视觉语言模型转化为一个统一的跨模态建模，目标是使视觉语言预训练模型能够适应统一的模态（如图像和视频）以及统一的跨模态下游任务（如检索和推理）。本文提出了UniAdapter，它统一了用于多模态建模的适配器，并将它们分发到每个模态和跨模态交互。UniAdapter有几个先前研究没有的吸引人的优势：1. 为了对跨模态交互进行建模，本文引入了一种知识分享方案，其中所有适配器中向下投影层都是共享的，而向上投影可以学习模态特定知识。2. 为了在多模态模型的交叉注意力过程中保持语言查询完整性，本文将残差学习纳入语言查询中。3. 本文提出了无参数的帧感知注意力，以无成本地统一视频和图像模态，不仅使本文方法适用于更多下游任务，还减轻了视频帧中噪声问题

本文方法

整体架构

UniAdapter目标使根据参数有效原则，为统一的跨模态下游任务启用预训练的视觉语言模型。除此之外，本文将单适配器均匀地插入文本、视觉和多模态编码器地每个Transformer层中，本文地框架有三个独特的跨模态迁移学习设计。1. 为了在多模态编码器交叉注意力过程中保持语言查询完整性，本文为语言查询引入了残差学习，2. 本文引入了统一和跨模态地知识共享设计，其中所有适配器中向下投影层都是共享的，而向上投影可以学习模态特定知识。考虑到视频帧的灶神问题，本文提出了无参数的帧感知注意力以无成本的统一视频和图像模态，以缓解视频语言领域中存在的噪声问题。
在这里插入图片描述

语言查询中的残差学习

采用多模态编码器进行跨模态令牌级建模，以文本特征为查询输入，将视觉特征插入每个跨注意力层，注入视觉特征。标准方法在Transformer编码器架构中的多头注意力后插入适配器。然而对于多模态编码器，直接遵循这种方法（在交叉注意力层后面插入适配器）很难处理混合信息，并且可能会在多模态编码器的交叉注意力过程中破坏查询的完整性。因此，本文引入了语言查询的残差学习解决这个问题。

多个多模态编码器块由多头自注意力（MSA）、多头交叉注意力（MCA）和全连接层FFN组成。多模态编码器将文本特征 $f^{t}$ 作为输入，视觉特征插入每个交叉注意力层以注入视觉特征。每个交叉注意力层将自注意力输出特征 $q$ 作为查询Q，视觉特征 $f^{v}$ 作为键K和值V。每个块的计算过程可以描述为：
$\begin{aligned} q&=l_{l-1}+MSA(l_{l-1})\\ h&=q+MCA(Q=q,K=f^{v},V=f^{v})\\ l_{l}&=Adapter(h)+FFN(LN(h)) \end{aligned}$
上式中可以看出隐藏状态h包含查询特征和跨模态混合特征。以单一模态适配器学习这样的混合信息是非常困难地。此外，文本查询信息可能再每个交叉编码器块中的传输过程中丢失。本文提出引入一个残差形式的额外适配器来捕捉/维护查询信息，该适配器成为查询残差适配器。本文将其插入子注意力层之后，并以残差形式直接将输出添加到FFN层。此时 $l_{l}$