迈向多图长序列理解，阿里开源多模态大模型 mPLUG-Owl3

最新推荐文章于 2025-04-12 14:51:09 发布

我爱计算机视觉

最新推荐文章于 2025-04-12 14:51:09 发布

阅读量370

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzIwMTE1NjQxMQ==&mid=2247623492&idx=1&sn=f020982aefc80dd8187d7b4914a18664&chksm=971954aae8e0b5ae5367522e4f6e22000a7c1463017f9c363e8dc44a343e0aa766446431c5f3&scene=126&sessionid=0

版权

关注公众号，发现CV技术之美

多模态多轮对话场景

长视频理解场景

阿里的mPLUG系列在多模态大模型领域产出了多项研究工作。从mPLUG-Owl初代模型引入了视觉对齐-语言模型微调的训练模式，到mPLUG-Owl2通过模块化的模态自适应解决模态拉扯，再到mPLUG-DocOwl通过切图建模高分辨率。这一系列模型一直在探索更为高效有效的多模态大语言模型。

尽管近年包括mPLUG-Owl在内的主流多模态大模型在多种单图任务上取得了一系列进展，当前对于多模态大模型来说，多图长序列输入仍然是一个极具挑战性的场景。如图1、2所示的多模态多轮对话、长视频理解等实际应用，就对模型的多图长序列理解能力提出了很高的要求。

现有的支持多图输入的工作，主要存在两个方面的缺陷：LLaVA-Next-Interleave等工作直接将视觉特征与文本序列拼接，在多图长序列输入时会带来很高的推理成本；Flamingo等使用的cross-attention结构，虽然降低了计算成本，但造成了细粒度视觉信息的损失，限制了其在单图和多图场景的性能。

针对上述问题，阿里通义实验室的研究人员提出通用多模态大模型mPLUG-Owl3，该模型能够在支持多图长序列输入的同时，兼顾性能和效率。为实现这一点，作者提出轻量级的hyper attention模块，实现视觉和语言信息的高效自适应融合。与相似参数规模的模型相比，mPLUG-Owl3在单图、多图、视频等多达14个benchmark上表现出SOTA性能。

paper: https://arxiv.org/pdf/2408.04840
code: https://github.com/X-PLUG/mPLUG-Owl/
HF: https://huggingface.co/spaces/mPLUG/mPLUG-Owl3
魔搭：https://modelscope.cn/studios/iic/mPLUG-Owl3

模型结构

mPLUG-Owl3模型的主体结构由视觉编码器SigLIP-400M、语言模型Qwen2和线性连接层组成。视觉编码器提取图像特征后，经线性层映射到与语言模型相同的维度。

作者在文本序列中使用了<|image|>作为图像标记位，并通过self-attention和cross-attention并行建模的方式将视觉特征融合到文本特征中。

与Flamingo、EVLM等工作在语言模型的每一层插入cross-attention层的做法不同，mPLUG-Owl3仅将网络的少数层拓展为提出的Hyper Attention Transformer Block (HATB)，从而避免了增加大量参数和计算。

模型结构

HATB模块

如下图(a)所示，Flamingo、IDEFICS等工作采用的cross-attention结构存在以下几点缺陷：(1) 增加大量参数和计算开销；(2) 视觉输入的理解无法受益于语言模型学习到的知识；(3) 未充分考虑图像在输入序列中的位置，限制其在多图场景的性能。

相比之下，作者提出的Hyper Attention Transformer Block (HATB)模块，通过共享LayerNorm、设置模态专属的Key-Value映射、自适应门控等设计，使得文本间的self-attention和跨模态的cross-attention能够高效地并行建模和自适应融合。

HATB模块

具体设计上，如图(b)所示，视觉特征与文本特征首先经过一个共享的LN层。作者在实验中发现，相比为视觉输入单独训练一个LN模块，视觉-语言共享同一个LN表现出更好的收敛性。经过LN层后，继承了mPLUG-Owl2的经验，其为视觉输入设置专属的Key-Value映射，而与文本输入共享相同的Query映射，从而在保留视觉模态特性的同时，使得语言模型能够基于文本语义自适应地获取需要的视觉信息。

在完成文本间self-attention和跨模态cross-attention的并行建模后，作者设计自适应门控机制，通过计算文本特征经线性映射后的激活值获得门控值，实现文本和视觉信息的自适应融合。

此外，作者在进行attention建模之前，引入了多模态交错的旋转位置编码MI-Rope来保留图文的位置信息。由于在文本序列中使用了<|image|>作为图像标记位，对于第n幅图片，其所有patch特征共享对应的标记位的位置编码，从而确保了位置编码不仅能反映图片的顺序，也能反映其在文本序列中的位置。