mPLUG-Owl2:模态协作对多模态大语言模型的革命性影响

点击蓝字

关注我们

关注并星标

从此不迷路

计算机视觉研究院

076b9b63273204ecdd146e936cbbe482.gif

d09fd375809fb1c37101343f0cb8ae54.gif

公众号ID计算机视觉研究院

学习群扫码在主页获取加入方式

计算机视觉研究院专栏

Column of Computer Vision Institute

mPLUG-Owl2是第一个在纯文本和多模态场景中展示模态协作现象的MLLM模型,为未来多模态基础模型的开发开辟了一条开创性的道路。

fd1a7579e399dea9ca432681513663d6.gif

PART/1

     概述    

多模态大语言模型(MLLMs)在各种开放式任务中表现出了令人印象深刻的教学能力。然而,以前的方法主要侧重于增强多模态能力。在今天分享的工作中,我们介绍了一种通用的多模态大型语言模型mPLUG-Owl2,它有效地利用模态协作来提高文本和多模态任务的性能。mPLUG-Owl2采用模块化网络设计,语言解码器充当管理不同模态的通用接口。具体而言,mPLUG-Owl2结合了共享的功能模块,以促进模态协作,并引入了一个模态自适应模块,该模块保留了模态特定的特征。

大量实验表明,mPLUG-Owl2能够推广文本任务和多模式任务,并使用单个通用模型实现最先进的性能。值得注意的是,mPLUG-Owl2是第一个在纯文本和多模态场景中展示模态协作现象的MLLM模型,为未来多模态基础模型的开发开辟了一条开创性的道路。

PART/2

     背景    

大型语言模型(LLM),如GPT-3、LLaMA和GPT-4,由于其在文本理解和生成方面的卓越泛化能力而引起了人们的极大关注。为了促进视觉语言的应用,GPT-4V最近在各种任务中表现出了令人印象深刻的多模态能力,例如描述、问答等,这引发了研究人员对视觉语言领域潜在融合的兴趣。这导致了一组多模态大语言模型的出现,旨在增强LLM理解和处理视觉问题的能力。先前对多模式学习的研究表明,不同的模式可以有效地协作,从而同时提高文本和多模式任务的性能。然而,MLLM是一个统一的模型,支持不同的模式和任务,而无需对特定任务进行微调。最近的工作利用跨模态对齐模块(例如,Q-former和线性层)将视觉特征从视觉编码器映射到冻结的LLM中,以通过利用保留的语言能力来执行多模态任务。不幸的是,这种策略限制了模式协作的潜力。因此,一些研究人员选择在多模式教学调整过程中对LLM进行微调。虽然微调显著改善了多模式任务,但也有削弱文本任务性能的风险。

112c0fb55e7496c6c6fa723655ccf735.png

如上图所示,MLLM中模态协作的挑战在于应用单个模块来平衡模态协作的增益和模态干扰,其中模态可能在多个模态的大量指令数据集上相互干扰。

为了缓解这一挑战,研究者在这项工作中提出了一个新的通用多模态基础模型mPLUG-Owl2。新的模型采用模块化网络设计,将模态协作和模态干扰都考虑在内,使用语言解码器作为管理多模态信号的通用接口。具体而言,mPLUG-Owl2结合了某些共享功能模块,以促进模态协作,并引入了一个模态自适应模块,作为不同模态的支点。因此,视觉和语言模态被投影到一个共享的语义空间中,用于跨模态交互,而所提出的模块有助于保留模态特定的特征。通过新架构,具有不同信息密度的模态由于模态自适应模块而免受模态干扰,并且可以有效地协作捕获共享信息。此外,研究者引入了一种创新的两阶段训练模式,包括视觉语言预训练和联合视觉语言教学调整。该范式跨两个阶段训练视觉编码器,使其能够更有效地捕获低级和高级语义视觉信息。

PART/3

     新框架详解    

下图(a)概述了mPLUG-Owl2。具体来说,新的模型包括视觉编码器、视觉抽象器、文本嵌入层和语言解码器。值得注意的是,文本嵌入层和语言解码器的标准实现涉及使用大型语言模型,如GPT或LLaMA。

e2129cd336dbc904a87afdd0f30306b0.png

Model Architecture

如上图所示,新模型称为mPLUG-Owl2,由三个主要组件组成:基本视觉编码器、视觉抽象器和语言解码器。具体而言,使用ViT-L/14作为视觉编码器,LLaMA-2-7B作为语言解码器。视觉编码器处理具有H×W分辨率的输入图像,并产生H14×W14标记序列。然后,这些视觉标记特征与文本标记嵌入相结合,并被馈送到语言解码器中,该语言解码器用作将各种视觉语言任务转换为文本生成任务的通用接口。然而,随着图像分辨率的增加,编码的视觉标记序列可以指数地延长。此外,图像中大量冗余的存在(例如,背景、相似的补丁)会导致计算浪费,并引入相当大的噪声。

为了解决这个问题,提出了一种视觉抽象器,它配备了一组固定的可学习查询,以从图像中提取更高的语义特征。具体地,将提取的视觉标记序列I=[I1,I2,··,IP]∈RP×d和固定数量的K个可学习查询Q∈RK×d馈送到视觉抽象器中。这里,P=H/14×W/14表示视觉补丁的数量,D是隐藏维度。视觉抽象器由一系列视觉抽象层组成。在视觉抽象器的第i层中,压缩的视觉表示Vi+1计算如下:

ccb5531bc03703739c1c1dd1cc45dc23.png

Modality-Adaptive Module

现有的方法通常试图通过将图像特征投影到语言语义空间中来将视觉特征与语言特征对齐。然而,这种策略可能会导致粒度不匹配,与文本嵌入特征中的离散语义信息相比,图像特征通常包含丰富的语义信息。这些方法忽略了视觉和文本信息的独特特性,从而潜在地限制了模型的性能。为此,研究者提出了一种新的方法,即模态自适应模块(MAM),它通过将视觉特征和语言特征投影到共享的语义空间中来解耦视觉语言表示,同时保留每个模态的独特特性。

cdcc98c63e83f097927b80cd3d7810dc.png

其中m∈{0,1}是模态(即视觉或语言)的类型。给定前一层的输出向量Hl−1,l∈[1,l],其中l是语言解码器层的数量,我们首先将不同的模态归一化为相同的大小,如下所示:

d665619bd2d36e0dddda25fcf4ef4987.png

然后,通过利用键投影矩阵和值投影矩阵的分离线性投影层来重新表述自注意操作,同时保持查询投影矩阵共享如下:

0da0bc29d3fdbb496d51047f1d59602d.png

Training Paradigm

如上图(c)所示,在训练mPLUG-Owl2时采用了两阶段方法,包括类似于【Visual instruction tuning】的预训练和视觉指令调整,其目的是在预训练阶段调整预训练的视觉编码器和语言模型,然后在指令调整阶段在语言建模丢失的情况下微调语言模型。

然而,我们发现,简单地冻结预训练的视觉编码器并训练视觉语言投影仪将视觉数据与语言模型对齐,会限制它们解释复杂视觉信息(如场景文本和视觉知识)的能力。为了解决这个问题,使视觉编码器在整个预训练和教学调整阶段都可以训练。该策略允许模型更有效地捕获低级和高级语义视觉信息。具体来说,对于预训练阶段,研究者使视觉编码器、视觉抽象器和模态自适应模块的一部分能够进行训练,同时保持预训练的语言模型冻结。同时,先前对多模式学习的研究表明,通过对单模式和多模式来源的协作学习,可以实现显著的增强。基于此,研究者采用了一种联合训练方法,在教学调整阶段调整整个模型,包括文本和多模式教学。这种方法增强了模型对多模态指令嵌入文本中的视觉概念的理解。同时,文本指令数据增强了模型对复杂自然指令的理解,从而确保了其语言能力的保留。

PART/4

     实验及可视化    

Main Results

Image Caption and Visual Question Answering

使用广泛的学术基准来评估mPLUG-Owl2,用于评估视觉语言模型。我们的评估包括八个流行的基准,如下表所示。

3a30d0902ee8f06fa95a6371f530fee3.png

结果表明,mPLUG-Owl2在字幕和问答任务方面都超过了以前的多面手模型。具体而言,mPLUG-Owl2在Flickr30K数据集上实现了最先进的性能,即使与具有更强大骨干的模型(例如,Qwen VL Chat和InstructBLIP)相比也是如此。此外,mPLUG-Owl2在视觉问答方面表现出明显的优势,尤其是在无OCR的场景中,其中mPLUG-Owl2以零样本的方式在TextVQA数据集上实现了54.3%的准确率,证明了我们的训练策略的优势。同样值得注意的是,mPLUG-Owl2在ScienceQA(图像集)和VizWizQA数据集上显示出强大的零样本性能。

MLLM-oriented Multi-modal Benchmarks

683cbd8e8603839b6e5bbff16e2f9828.png

在表中,mPLUG-Owl2在MMBench、MM-Vet和Q-Bench方面实现了更高的零样本性能。相反,MME的性能较低,因为MME中的测试样本数量有限,这可能导致性能的敏感波动。特别是,它在Q-Bench上表现出显著的改进,Q-Bench是检查MLLMs低水平视觉感知的基准。当应用较小的视觉主干(即ViT-L)时,会出现这种改善,从而增强低水平视觉感知。这证明了我们训练视觉骨干的训练策略的有效性。

Natural Language Understanding and Generation

如下表所示,mPLUG-Owl2在检查和推理方面表现出色,分别比MMLU和BBH显著提高了2.3%和3.8%。这表明,与其他指令调优的LLM相比,mPLUG-Owl2不仅在多模式任务上表现良好,而且实现了更好的性能,这为开发强大的MLLM提供了一条很有前途的途径。

a3597712cd7d0fc0a649dc12b96798e3.png

Zero-Shot Video Question Answering

93aa8c04d812f9a9ee4112fc05f86c73.png

我们采用了两种类型的评价:1)精确匹配,这是以前视频问答评价中常用的;和2)GPT辅助评估,其通过测量模型生成的预测的准确性并提供1-5分的相对得分来评估模型的能力。我们观察到,在零样本设置下,新模型在所有三个视频数据集上都取得了优异的结果。此外,在相关性方面,新模型比其他视频MLLMs生成更准确的答案,从而证明了其优越性和出色的泛化能力。

b12f82d112d8185b5c9f187d4d3b6238.png

如上图所示,我们通过使用图像字幕输入可视化mPLUG-Owl2的注意力图,研究了模态自适应模块在多模态场景中的影响。每个注意力图示出了在生成过程中生成的令牌在输入序列上的注意力得分。

089a9c0ad82aa17eb8b9cfe947553a9c.png

我们提出一个问题:“彩虹的七种颜色是什么?”以及随机选择的图像。在该示例中,图像输入充当对模型的干扰。我们的目的是调查新模块对包含不相关模态的数据的影响。该模型的反应和注意力图如上图所示。

提出的新模型mPLUG-Owl2结合了模态自适应模块,可以准确识别所有七种颜色。在生成过程中,可以观察到模型主要关注文本输入。另一方面,当不使用模态自适应模块时,mPLUG-Owl2仅识别六种颜色。该模型理解文本指令的能力被破坏了,而且很明显,它在生成过程中更加强调图像。得益于模态自适应模块,mPLUG-Owl2在建模多模态输入时能够更好地捕捉模态特定特征。这增强了模态协作的适应性,从而减少了文本和图像不相关时的干扰。

079b35ae3052cf265c299172ca2dd101.png

915b11fbfc7a0ed5486875496dfe30fd.gif

END

d91e4c89b9e91d2a1d0c060bf8b13843.gif

4dc9b4d7bab55d656b4d07a9cc838fb3.gif

转载请联系本公众号获得授权

e3b419df9691cc8a637d1ad435f49f1d.gif

计算机视觉研究院学习群等你加入!

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域,主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架,提供论文一键下载,并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

35a66370cbdaf1a97874dd9365d64e38.png

 往期推荐 

🔗

  • 24
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

计算机视觉研究院

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值