UniAdapter: Unified Parameter-Efficient Transfer Learning for Cross-modal Modeling

UniAdapter: Unified Parameter-Efficient Transfer Learning for Cross-modal Modeling

  • 论文链接:https://arxiv.org/pdf/2302.06605.pdf
  • 源码链接:https://hub.nuaa.cf/RERV/UniAdapter

简介

预训练-微调范式在自然语言处理,计算机视觉和多模态建模中取得了巨大的成功,其中模型首先用大规模数据预训练,然后针对每个下游任务进行全微调。最近的研究进一步发现,通过引入额外的可训练模块来微调/调整基础模型以适应新的模态。近期的研究进一步发现,通过引入额外的可训练模块来微调/调整基础模型以适应新的模态,显著优于以前的研究,例如用于图像到视觉传输的时间建模模块。

然而,随着基础模型变得越来越大(例如具有175B参数的GPT-3)和下游任务数量的增加,特别是在多模态场景中,传统的全微调变得不切实际,因为它需要大量计算和存储需求。寻找新的方法,在不产生过高成本情况下,有效地将现有基础模型迁移到下游任务,成为该领域一项重要挑战。

目前已经探索了上述挑战的替代方法。一种简单的方法使用线性探索,它几乎冻结整个模型,并且只为每个任务调整了一个轻量化头。它只是次优的,因为表示和特征空间是固定的。另一条研究路线是在基础模型中添加非常大的额外模块(例如Flamingo)的少样本学习缓解这个问题,这仍然远未达到全微调策略。

近年来,在许多研究领域,参数有效适配器在推广基础模型方面取得了显著的成果。在NLP和CV中,可调整适配器和可调整提示向量在迁移学习过程中使用冻结backbone。它们还显示出跨模态建模的巨大潜力,因为它们能够将预训练的基础模型从跨木平台迁移到单模态(例如视频分类)或其他下游任务(例如图像-文本推理)。然而,上述研究通常考虑单模态/跨模态到不同下游任务。考虑到多模态建模中各种下游任务(例如,视频文本检索、图像文本检索、视频和视觉问答)。同时以前的方法通常应用适配器,而不考虑它们之间的跨模态交互知识共享,这是跨模态建模关键。

受到上述观察启发,本文研究了一个关键问题,即有效地将视觉语言模型转化为一个统一的跨模态建模,目标是使视觉语言预训练模型能够适应统一的模态(如图像和视频)以及统一的跨模态下游任务(如检索和推理)。本文提出了UniAdapter,它统一了用于多模态建模的适配器,并将它们分发到每个模态和跨模态交互。UniAdapter有几个先前研究没有的吸引人的优势:1. 为了对跨模态交互进行建模,本文引入了一种知识分享方案,其中所有适配器中向下投影层都是共享的,而向上投影可以学习模态特定知识。2. 为了在多模态模型的交叉注意力过程中保持语言查询完整性,本文将残差学习纳入语言查询中。3. 本文提出了无参数的帧感知注意力,以无成本地统一视频和图像模态,不仅使本文方法适用于更多下游任务,还减轻了视频帧中噪声问题

本文方法

整体架构

UniAdapter目标使根据参数有效原则,为统一的跨模态下游任务启用预训练的视觉语言模型。除此之外,本文将单适配器均匀地插入文本、视觉和多模态编码器地每个Transformer层中,本文地框架有三个独特的跨模态迁移学习设计。1. 为了在多模态编码器交叉注意力过程中保持语言查询完整性,本文为语言查询引入了残差学习,2. 本文引入了统一和跨模态地知识共享设计,其中所有适配器中向下投影层都是共享的,而向上投影可以学习模态特定知识。考虑到视频帧的灶神问题,本文提出了无参数的帧感知注意力以无成本的统一视频和图像模态,以缓解视频语言领域中存在的噪声问题。
在这里插入图片描述

语言查询中的残差学习

采用多模态编码器进行跨模态令牌级建模,以文本特征为查询输入,将视觉特征插入每个跨注意力层,注入视觉特征。标准方法在Transformer编码器架构中的多头注意力后插入适配器。然而对于多模态编码器,直接遵循这种方法(在交叉注意力层后面插入适配器)很难处理混合信息,并且可能会在多模态编码器的交叉注意力过程中破坏查询的完整性。因此,本文引入了语言查询的残差学习解决这个问题。

多个多模态编码器块由多头自注意力(MSA)、多头交叉注意力(MCA)和全连接层FFN组成。多模态编码器将文本特征 f t f^{t} ft作为输入,视觉特征插入每个交叉注意力层以注入视觉特征。每个交叉注意力层将自注意力输出特征 q q q作为查询Q,视觉特征 f v f^{v} fv作为键K和值V。每个块的计算过程可以描述为:
q = l l − 1 + M S A ( l l − 1 ) h = q + M C A ( Q = q , K = f v , V = f v ) l l = A d a p t e r ( h ) + F F N ( L N ( h ) ) \begin{aligned} q&=l_{l-1}+MSA(l_{l-1})\\ h&=q+MCA(Q=q,K=f^{v},V=f^{v})\\ l_{l}&=Adapter(h)+FFN(LN(h)) \end{aligned} qhll=ll1+MSA(ll1)=q+MCA(Q=q,K=fv,V=fv)=Adapter(h)+FFN(LN(h))
上式中可以看出隐藏状态h包含查询特征和跨模态混合特征。以单一模态适配器学习这样的混合信息是非常困难地。此外,文本查询信息可能再每个交叉编码器块中的传输过程中丢失。本文提出引入一个残差形式的额外适配器来捕捉/维护查询信息,该适配器成为查询残差适配器。本文将其插入子注意力层之后,并以残差形式直接将输出添加到FFN层。此时 l l l_{l}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

qgh1223

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值