阿里多模态大模型mPLUG-Owl2,模态自适应特征空间实现模态协同

点击蓝字 关注我们

关注并星标

从此不迷路

计算机视觉研究院

ceaf42a1d7c413462b9ba65db67293fb.gif

19c46be4fbeae1db5e03ccf006039432.gif

公众号ID计算机视觉研究院

学习群扫码在主页获取加入方式

论文地址:https://arxiv.org/abs/2311.04257

代码地址:: https://github.com/X-PLUG/mPLUG-Owl/tree/main/mPLUG-Owl2

计算机视觉研究院专栏

Column of Computer Vision Institute

距离 ChatGPT 发布已有 1 年有余,国内外各个公司和研究机构相继发布了各种语言模型,而多模态领域更进一步,在 GPT-4V 发布之前便涌现了诸多优秀的多模态大语言模型

052724d8c985bcb346f3c6eb935d4aaa.gif

01

简介

多模态大语言模型(MLLMs)在各种开放式任务中表现出了令人印象深刻的教学能力。然而,以前的方法主要侧重于增强多模态能力。在今天分享的工作中,我们介绍了一种通用的多模态大型语言模型mPLUG-Owl2,它有效地利用模态协作来提高文本和多模态任务的性能。mPLUG-Owl2采用模块化网络设计,语言解码器充当管理不同模态的通用接口。

a5f7c9ebfdd0fb3448b944a26dd91d82.png

具体而言,mPLUG-Owl2结合了共享的功能模块,以促进模态协作,并引入了一个模态自适应模块,该模块保留了模态特定的特征。大量实验表明,mPLUG-Owl2能够推广文本任务和多模式任务,并使用单个通用模型实现最先进的性能。值得注意的是,mPLUG-Owl2是第一个在纯文本和多模态场景中展示模态协作现象的MLLM模型,为未来多模态基础模型的开发开辟了一条开创性的道路。

a91a1090b4692c3b576128289162f986.gif

02

背景

mPLUGOwl2和现有MLLM之间的总体性能比较,以及现有MLLM和我们提出的模型之间的差异。(a) 先前的方法利用标准语言解码器(即LLM)来管理不同类型的指令,导致模态干扰和性能下降。(b)mPLUG-Owl2,它使用模态自适应语言解码器来处理不同模块中的不同模态,同时共享一些模态协作参数。这种方法减轻了模态干扰的问题。

939393eb78c91c1f0911e8aa803a5048.png

先前关于多模式学习的研究表明,不同的模式可以有效地协作,从而同时提高文本和多模式任务的性能。然而,MLLM是一个统一的模型,支持不同的模式和任务,而无需对特定任务进行微调。最近有工作利用跨模态对齐模块(例如,Q-former和线性层)将视觉特征从视觉编码器映射到冻结的LLM中,以通过利用保留的语言能力来执行多模态任务。

不幸的是,这种策略限制了模式协作的潜力。因此,一些研究人员选择在多模式教学调整过程中对LLM进行微调。虽然微调显著改善了多模式任务,但也有削弱文本任务性能的风险。如上图所示,MLLM中模态协作的挑战在于应用单个模块来平衡模态协作的增益和模态干扰,其中模态可能在多个模态的大量指令数据集上相互干扰。

为了缓解这一挑战,我们在这项工作中提出了一种新的通用多模态基础模型mPLUG-Owl2。我们的模型采用模块化网络设计,将模态协作和模态干扰都考虑在内,使用语言解码器作为管理多模态信号的通用接口。具体而言,mPLUG-Owl2结合了某些共享功能模块,以促进模态协作,并引入了一个模态自适应模块,作为不同模态的支点。因此,视觉和语言模态被投影到一个共享的语义空间中,用于跨模态交互,而所提出的模块有助于保留模态特定的特征。通过我们的新架构,具有不同信息密度的模态由于模态自适应模块而免受模态干扰,并且可以有效地协作捕获共享信息。此外,我们引入了一种创新的两阶段训练模式,包括视觉语言预训练和联合视觉语言教学调整。该范式跨两个阶段训练视觉编码器,使其能够更有效地捕获低级和高级语义视觉信息。

e2d3c90aefcb7599ab912da5e2fcbe96.gif

03

新框架

下图(a)概述了mPLUG-Owl2。具体来说,我们的模型包括视觉编码器、视觉抽象器、文本嵌入层和语言解码器。值得注意的是,文本嵌入的标准实现编码层和语言解码器涉及使用大型语言模型,如GPT或LLaMA。

790b3946ece1c04940a8131c333ea9e3.png

如上图所示,我们的模型称为mPLUGOwl2,由三个主要组件组成:基本视觉编码器、视觉抽象器和语言解码器。具体来说,我们使用ViT-L/14作为视觉编码器,LLaMA-2-7B作为语言编码器。视觉编码器处理具有H×W分辨率的输入图像,并产生H14×W14标记序列。然后,这些视觉标记特征与文本标记嵌入相结合,并被馈送到语言解码器中,该语言解码器用作将各种视觉语言任务转换为文本生成任务的通用接口。然而,随着图像分辨率的增加,编码的视觉标记序列可以指数地延长。此外,图像中存在大量冗余(例如,背景、相似的补丁)会导致计算浪费,并引入相当大的噪声。

933c4a610f46faf10733417a68a0eaf9.gif

04

实验

模态自适应模块在不相关模态场景中的影响。我们提出一个问题:“彩虹的七种颜色是什么?”以及随机选择的图像。在该示例中,图像输入充当对模型的干扰。我们的目的是调查我们的模块对包含不相关模态的数据的影响。该模型的反应和注意力图如下图所示。

我们提出的模型mPLUG-Owl2结合了模态自适应模块,可以准确识别所有七种颜色。在生成过程中,可以观察到模型主要关注文本输入。另一方面,当不使用模态自适应模块时,mPLUG-Owl2仅识别六种颜色。该模型理解文本指令的能力被破坏了,而且很明显,它在生成过程中更加强调图像。得益于模态自适应模块,mPLUG-Owl2在建模多模态输入时能够更好地捕捉模态特定特征。这增强了模态协作的适应性,从而减少了文本和图像不相关时的干扰。

255a68e8cc48d30e8eb3bd4571e9645e.png

© THE END 

b0fea921a61460c487a2188e4a038e3f.gif

转载请联系本公众号获得授权

e1e4c1d6cd31595fd878318aa9bae92c.gif

计算机视觉研究院学习群等你加入!

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域,主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架,提供论文一键下载,并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

0ccc83e353adc8c06e13a996c8007760.png

 往期推荐 

🔗

  • 18
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

计算机视觉研究院

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值