1、论文地址Qwen2-VL: Enhancing Vision-Language Model’s Perception of the World at Any Resolution
2、Qwen2-VL的Github仓库地址
该论文发表于2024年4月,是Qwen2-VL的续作,截止2024年11月,引用数24
文章目录
1 论文摘要
作者提出了Qwen2-VL系列,这是先前Qwen-VL模型的先进升级,重新定义了视觉处理中的传统确定分辨率方法。Qwen2-VL引入了Naive动态分辨率机制
,使模型能够动态地将不同分辨率的图像处理成不同数量的视觉 Token 。这种方法使模型可以生成更高效、更准确的可视表示,并与人类感知过程紧密一致。模型还集成了多模态旋转位置嵌入(M-RoPE)
,以促进文本、图像和视频之间位置信息的有效融合。作者采用了一种统一的方法来处理图像和视频,增强了模型的视觉感知能力。为了探索大型多模态模型的潜力,Qwen2-VL研究了大型视觉语言模型(LVLMs)的扩展定律。通过扩展模型的参数大小(版本为2B、8B和72B)和训练数据的数量,Qwen2-VL系列在各个多模态基准测试中实现了非常具有竞争力的性能。值得注意的是,Qwen2-VL-72B模型在各种多模态基准测试中,与GPT-4o和Claude3.5-Sonnet等领先模型相比,实现了相当的结果,超越了其他通用模型
。代码: https://github.com/QwenLM/Qwen2-VL
2 引言
在人工智能领域,大型视觉语言模型(LVLMs)是一个重大的进步,这些模型在传统大型语言模型的强大文本处理能力基础上构建。这些先进的模型现在具有处理更广泛的数据的能力,包括图像、音频和视频。这种能力的扩展使LVLMs成为解决各种实际挑战的不可或缺的工具。由于它们独特地将广泛而复杂的知识压缩为功能表示,LVLMs正在为更全面的认知系统铺平道路。通过整合多种数据形式,LVLMs试图更接近地模拟人类感知和互动环境的细微差别。这使得这些模型能够更准确地表示作者如何与作者的环境互动和感知。
近年来大型视觉语言模型(LVLMs)的进步已经取得了显著的改进。这些模型通常遵循一种常见的做法,即“视觉编码器→跨模态连接器→LLM”。这种设置,结合Next-Token预测作为主要训练方法和高质量数据集的可用性,推动了大部分进展。此外,像更大的模型架构,更高的分辨率图像,以及先进的混合专家模型(MoE)等高级技术,模型集成,以及视觉和文本模态之间更复杂的连接器等因素也对增强LVLMs处理复杂视觉和文本信息的能力发挥了关键作用。
然而,当前的大型视觉语言模型(LVLMs)通常受到固定图像输入大小的限制。标准LVLMs将输入图像编码到固定分辨率(例如,224224),通常通过降低采样或增加采样,或者采用“先缩放后填充”的方法。尽管这种一刀切的方法可以实现输入图像在一致分辨率下的处理,但也限制了模型在不同尺度下捕捉信息的能力,特别是在高分辨率图像中,会导致大量详细信息的丢失。因此,这些模型在感知视觉信息时,对尺度和细节的敏感性不如人类视觉。
此外,大多数LVLMs依赖于一个静态、冻结的CLIP式视觉编码器,这引发了关于由这种预训练模型产生的视觉表示是否足够的担忧,尤其是在复杂推理任务和处理图像内的精细细节时。最近的工作试图通过在LVLM训练过程中微调视觉 Transformer (ViT)来解决这些限制,这已经证明可以获得更好的结果。为了进一步增强模型对不同分辨率的适应性,作者在LVLM训练过程中引入了动态分辨率训练。具体来说,作者在ViT中使用2D旋转变位位置嵌入(RoPE),这样模型就可以更好地捕捉不同空间尺度上的信息。
关于视频内容,它本质上是一系列帧,许多现有模型仍然将其视为独立模态。然而,理解视频中现实世界的动态特性,对于那些试图抓住真实世界复杂性的模型至关重要。与文本(天生一维)不同,真实世界存在于三维。目前模型中使用的一维位置编码极大地限制了它们有效模拟三维空间和时间动态的能力。为了弥合这一差距,作者开发了多模态旋转位置编码(MRoPE),该编码器使用单独的组件表示时间和空间信息。这使得模型能够自然地理解动态内容,如视频或 Stream 数据,从而提高其理解和交互世界的能力。
此外,与大型语言模型(LLMs)的扩展相比,当前的LVLMs在探索扩展对训练数据和模型参数的影响方面仍处于早期阶段。LVLMs的扩展定律的探索——模型和数据大小的增长如何影响性能——仍然是一个开放且具有前景的研究领域。
在本工作中,作者引入了Qwen家族的视觉语言模型的最新成员:Qwen2-VL系列,该系列包括三个参数总数分别为20亿、80亿和720亿的开源权重模型。
如图1所示,Qwen2-VL的关键改进包括:
- 在各种分辨率和 aspect ratio 下的最新 AI 理解: Qwen2-VL 在视觉基准测试中实现了领先的性能,包括 DocVQA、InfoVQA、RealWorldQA、MTVQA、MathVista 等。
- 理解扩展时长视频(20分钟以上): Qwen2-VL 能够理解长度超过 20 分钟的视频,从而提高其进行高质量基于视频的问题回答、对话、内容创建等的能力。
- 具有强大设备操作能力的AI Agent 能力: 具有高级推理和决策能力的Qwen2-VL可以与如手机、机器人等设备集成,实现基于视觉输入和文本指令的自主操作。
- 多语言支持: 为了服务全球用户,Qwen2-VL现在支持图像内的多语言上下文理解,包括大多数欧洲语言、日语、韩语、阿拉伯语、越南语等。
3 实验
在本节中,作者首先通过在各种视觉基准上进行比较分析来评估模型的性能,展示作者方法的优势。然后,作者对特定能力进行详细检查,包括通用视觉感知、文档理解、图像中的多语言识别、视频理解以及 Agent 能力。最后,作者进行一项消融研究,以调查作者方法的关键组成部分。
3.1 与SOTA相比
作者通过各种视觉基准测试、视频任务和基于 Agent 的评估来评估Qwen2-VL在视觉方面的能力。Qwen2-VL在相同规模上表现出非常高的竞争力,实现了新的最先进水平(SoTA)的结果。总的来说,Qwen2-VL-72B模型在大多数评估指标上始终提供顶级性能,经常甚至超过封闭源模型如GPT-4o和Claude 3.5-Sonnet。值得注意的是,它在文档理解任务上表现出显著的优势。然而,在MMMU基准测试中,Qwen2-VL在某种程度上仍落后于GPT-4o,这表明在处理更复杂和具有挑战性的问题集时,Qwen2-VL-72B仍有改进的空间。
3.2 定量结果
在本节中,作者对Qwen2-VL系列在多个数据集上的表现进行了广泛的评估,以全面了解模型在不同方面的能力。
3.2.1 通用视觉问答
为了严格评估Qwen2-VL在通用视觉问答任务中的能力,作者在一系列最先进的基准测试上进行了广泛的评估:RealWorldQA,MMStar,MMVet,MMT-Bench,MMBench,