Qwen2.5-VL 技术报告

阿里云 Qwen 团队
摘要

我们介绍了 Qwen2.5-VL,这是 Qwen 视觉-语言系列的最新旗舰模型,在基础能力和创新功能方面取得了显著进展。Qwen2.5-VL 通过增强的视觉识别、精确的对象定位、强大的文档解析和长视频理解能力,在理解和与世界的交互方面实现了重大飞跃。Qwen2.5-VL 的一个突出特点是能够使用边界框或点准确地定位对象。它能够从发票、表格和图表中提取结构化数据,并对图表、图示和布局进行详细分析。为了处理复杂的输入,Qwen2.5-VL 引入了动态分辨率处理和绝对时间编码,使其能够处理不同大小的图像和长时间(长达数小时)的视频,并实现秒级事件定位。这使得模型能够在不依赖传统归一化技术的情况下,自然地感知空间尺度和时间动态。通过从头训练原生动态分辨率的 Vision Transformer (ViT) 并结合 Window Attention,我们显著减少了计算开销,同时保持了原生分辨率。因此,Qwen2.5-VL 不仅在静态图像和文档理解方面表现出色,还作为交互式视觉代理,在操作计算机和移动设备等实际场景中具备推理、工具使用和任务执行的能力。该模型在跨领域应用中具有强大的泛化能力,无需针对特定任务进行微调。Qwen2.5-VL 提供三种尺寸,适用于从边缘 AI 到高性能计算的各种用例。旗舰版 Qwen2.5-VL-72B 在文档和图表理解方面与 GPT-4o 和 Claude 3.5 Sonnet 等最先进模型相媲美,而较小的 Qwen2.5-VL-7B 和 Qwen2.5-VL-3B 模型在资源受限环境中也表现出色。此外,Qwen2.5-VL 保持了强大的语言性能,保留了 Qwen2.5 LLM 的核心语言能力。

在这里插入图片描述

1 引言

大型视觉-语言模型 (LVLMs) (OpenAI, 2024; Anthropic, 2024a; Team et al., 2023; Wang et al., 2024f) 代表了人工智能的一个重要突破,标志着多模态理解和交互方式的转变。通过无缝集成视觉感知和自然语言处理,这些先进的模型从根本上重塑了机器如何解释和分析跨多个领域的复杂信息。尽管在多模态大语言模型方面取得了显著进展,但这些模型的能力可以比作夹心饼干的中间层——在各种任务上表现良好,但在卓越性能方面仍有不足。细粒度的视觉任务构成了这一类比的基础层。在 Qwen2.5-VL 的这一迭代中,我们致力于探索细粒度感知能力,旨在为 LVLMs 建立坚实的基础,并为实际应用创建一个有效的代理放大器。这一框架的顶层是多模态推理,通过利用最新的 Qwen2.5 LLM 并采用多模态 QA 数据构建来增强。

一系列工作推动了多模态大模型的发展,其特点在于架构设计、视觉输入处理和数据整理。LVLMs 进步的主要驱动力之一是架构的持续创新。(Alayrac et al., 2022; Li et al., 2022a; 2023b; Liu et al., 2023b;a; Wang et al., 2024i; Zhang et al., 2024b; Wang et al., 2023) 中的研究逐步塑造了当前范式,通常由视觉编码器、跨模态投影器和 LLM 组成。细粒度感知模型是另一个关键领域。像 (Xiao et al., 2023; Liu et al., 2023c; Ren et al., 2024; Zhang et al., 2024a;d; Peng et al., 2023; Deitke et al., 2024) 这样的模型推动了详细视觉理解的可能性。Omni (Li et al., 2024g; 2025b; Ye et al., 2024) 和 MoE (Riquelme et al., 2021; Lee et al., 2024; Li et al., 2024h;c; Wu et al., 2024b) 的架构也为 LVLMs 的未来发展提供了灵感。视觉编码器的改进 (Chen et al., 2023; Liu et al., 2024b; Liang et al., 2025) 和分辨率缩放 (Li et al., 2023c; Ye et al., 2023; Li et al., 2023a) 在提高实际视觉理解的质量方面发挥了关键作用。整理包含更多样化场景和更高质量的数据是训练高级 LVLMs 的重要步骤。(Guo et al., 2024; Chen et al., 2024d; Liu et al., 2024a; Chen et al., 2024a; Tong et al., 2024; Li et al., 2024a) 中提出的努力对此做出了宝贵的贡献。

然而,尽管取得了显著进展,视觉-语言模型目前仍面临发展瓶颈,包括计算复杂性、有限的上下文理解能力、较差的细粒度视觉感知以及在不同序列长度下的一致性表现不佳。

在本报告中,我们介绍了最新的工作 Qwen2.5-VL,继续秉承 Qwen 系列的开源理念,在各种基准测试中达到甚至超越顶级闭源模型。技术上的贡献有四点:(1) 我们在视觉编码器中实现了窗口注意力以优化推理效率;(2) 我们引入了动态 FPS 采样,将动态分辨率扩展到时间维度,从而实现不同采样率下的全面视频理解;(3) 我们通过将 MRoPE 对齐到绝对时间来升级时间域中的 MRoPE,从而促进更复杂的时间序列学习;(4) 我们在预训练和监督微调的数据整理方面做出了巨大努力,进一步将预训练语料库从 1.2 万亿个令牌扩展到 4.1 万亿个令牌。

Qwen2.5-VL 的亮点如下:

  • 强大的文档解析能力:Qwen2.5-VL 将文本识别升级为全文档解析,擅长处理多场景、多语言和各种内置(手写、表格、图表、化学公式和乐谱)文档。
  • 跨格式的精确对象定位:Qwen2.5-VL 提高了检测、指向和计数对象的准确性,支持绝对坐标和 JSON 格式,以实现高级的空间推理。
  • 超长视频理解和细粒度视频定位:我们的模型将原生动态分辨率扩展到时间维度,增强了对长达数小时的视频的理解能力,同时能够以秒为单位提取事件片段。
  • 增强的计算机和移动设备代理功能:利用先进的定位、推理和决策能力,提升模型在智能手机和计算机上的代理功能。

在这里插入图片描述

图 1:Qwen2.5-VL 框架展示了视觉编码器和语言模型解码器的集成,用于处理多模态输入,包括图像和视频。视觉编码器设计为以原生分辨率处理输入,并支持动态 FPS 采样。不同大小的图像和不同 FPS 速率的视频帧被动态映射为不同长度的令牌序列。值得注意的是,MRoPE 沿时间维度将时间 ID 与绝对时间对齐,使模型更好地理解时间动态,如事件的速度和精确时刻定位。处理后的视觉数据随后被送入 Qwen2.5 LM 解码器。我们重新设计了视觉变换器 (ViT) 架构,引入了 FFN 与 SwiGLU 激活、RMSNorm 归一化和基于窗口的注意力机制等高级组件,以提高性能和效率。

2 方法

在本节中,我们首先概述 Qwen2.5-VL 系列模型的架构更新,并提供数据和训练细节的概述。

2.1 模型架构

Qwen2.5-VL 的整体模型架构由三个部分组成:

大型语言模型:Qwen2.5-VL 系列采用了大型语言模型作为其基础组件。该模型初始化时使用了 Qwen2.5 LLM 的预训练权重。为了更好地满足多模态理解的需求,我们将 1D RoPE(旋转位置嵌入)修改为对齐绝对时间的多模态旋转位置嵌入。

视觉编码器:Qwen2.5-VL 的视觉编码器采用了重新设计的 Vision Transformer (ViT) 架构。结构上,我们结合了 2D-RoPE 和窗口注意力,以支持原生输入分辨率并加速整个视觉编码器的计算。在训练和推理过程中,输入图像的高度和宽度会被调整为 28 的倍数,然后再送入 ViT。视觉编码器通过将图像分割成步幅为 14 的补丁来处理图像,生成一组图像特征。我们在第 2.1.1 节 中提供了关于视觉编码器的更详细介绍。

基于 MLP 的视觉-语言融合:为了解决长序列图像特征带来的效率挑战,我们采用了一种简单而有效的方法,在将特征序列送入大型语言模型 (LLM) 之前对其进行压缩。具体来说,我们不是直接使用 Vision Transformer (ViT) 提取的原始补丁特征,而是首先将空间相邻的四个补丁特征分组。然后将这些分组的特征连接起来并通过一个两层的多层感知机 (MLP) 传递,将其投影到与 LLM 中使用的文本嵌入对齐的维度。这种方法不仅减少了计算成本,还提供了一种灵活的方式来动态压缩不同长度的图像特征序列。

配置Qwen2.5-VL-3BQwen2.5-VL-7BQwen2.5-VL-72B
视觉变换器 (ViT)
隐藏层大小1280
层数1280
32
1280
32
32
注意力头数161616
中间层大小345634563456
补丁大小141414
窗口大小112112112
完全注意力块索引{7, 15, 23, 31}{7, 15, 23, 31}{7, 15, 23, 31}
视觉-语言融合
输入通道128012801280
输出通道204835848192
大型语言模型 (LLM)
隐藏层大小20483,5848192
层数362880
KV 头数248
头部大小128128128
中间层大小48641894429568
嵌入绑定
词汇量151646151646151646
训练令牌数量4.1T4.1T4.1T

1, 详细列出了 Qwen2.5-VL 的架构和配置。

表 1:Qwen2.5-VL 的配置。

2.1.1 快速高效的视觉编码器

视觉编码器在多模态大语言模型 (MLLMs) 中起着至关重要的作用。为了解决由于原生分辨率输入导致的训练和推理过程中的计算负载不平衡问题,我们重新设计了 Vision Transformer (ViT) 架构。主要问题在于处理不同大小的图像时的二次计算复杂性。为此,我们在大多数层中引入了窗口注意力,确保计算成本随补丁数量线性增长而不是二次增长。在我们的架构中,只有四层使用全自注意力,其余层使用最大窗口大小为 112×112(对应 8×8 补丁)的窗口注意力。小于 112×112 的区域在没有填充的情况下进行处理,保持其原始分辨率。这种设计使模型能够在输入分辨率下原生运行,避免不必要的缩放或失真。

对于位置编码,我们采用 2D 旋转位置嵌入 (RoPE) 以有效地捕捉二维空间中的空间关系。此外,为了更好地处理视频输入,我们将方法扩展到 3D 补丁划分。具体来说,我们使用 14×14 图像补丁作为基本单元,与传统的 ViTs 用于静态图像一致。对于视频数据,我们将两个连续帧组合在一起,显著减少了送入语言模型的令牌数量。这种设计不仅与现有架构兼容,而且在处理顺序视频数据时提高了效率。

为了简化整体网络结构,我们使 ViT 架构更接近大型语言模型 (LLMs) 的设计原则。具体来说,我们采用 RMSNorm (Zhang & Sennrich, 2019) 进行归一化,并使用 SwiGLU (Dauphin et al., 2017) 作为激活函数。这些选择既提高了计算效率,又增强了视觉和语言组件之间的兼容性。

在训练方面,我们从头开始训练重新设计的 ViT。训练过程包括几个阶段,包括 CLIP 预训练、视觉-语言对齐和端到端微调。为了确保在不同输入分辨率下的鲁棒性,我们在训练过程中采用原生分辨率的动态采样。图像根据其原始纵横比随机采样,使模型能够有效地推广到不同分辨率的输入。这种方法不仅提高了模型的适应性,还确保了不同大小的视觉数据的稳定和高效训练。

2.1.2 原生动态分辨率和帧率

Qwen2.5-VL 在空间和时间维度上都进行了改进,以有效处理多样化的多模态输入。

在空间域中,Qwen2.5-VL 动态地将不同大小的图像转换为相应长度的令牌序列。与传统的归一化坐标方法不同,我们的模型直接使用输入图像的实际尺寸来表示边界框、点和其他空间特征。这使模型能够学习尺度信息,从而提高其处理不同分辨率图像的能力。

对于视频输入,Qwen2.5-VL 结合了动态帧率 (FPS) 训练和绝对时间编码。通过适应可变帧率,模型能够更好地捕捉视频内容的时间动态。与其他方法(如添加文本时间戳或使用额外的头部进行时间定位)不同,我们引入了一种新颖且高效的方法,将 MRoPE ID 直接与时间戳对齐。这种方法允许模型通过时间维度 ID 之间的时间间隔来理解时间节奏,而不需要任何额外的计算开销。

2.1.3 对齐绝对时间的多模态旋转位置嵌入

位置嵌入对于建模视觉和语言模态中的序列数据至关重要。在 Qwen2-VL 中引入的多模态旋转位置嵌入 (MRoPE) 的基础上,我们扩展了其功能以更好地处理视频中的时间信息。

Qwen2-VL 中的 MRoPE 将位置嵌入分解为三个不同的组成部分:时间、高度和宽度,以有效地建模多模态输入。对于文本输入,所有三个组成部分使用相同的位置 ID,使 MRoPE 在功能上等同于传统的 1D RoPE (Su et al., 2024)。对于图像,时间 ID 在视觉令牌中保持不变,而高度和宽度组件则根据每个令牌在图像中的空间位置分配唯一 ID。在处理视频时,将其视为帧序列,时间 ID 随每帧递增,而高度和宽度组件遵循与静态图像相同的分配模式。

然而,在 Qwen2-VL 中,MRoPE 中的时间位置 ID 与输入帧的数量相关联,未考虑内容变化的速度或视频内事件的绝对时间。为了解决这一限制,Qwen2.5-VL 引入了一个关键改进:将 MRoPE 的时间组件与绝对时间对齐。如图 1, 所示,通过利用时间 ID 之间的时间间隔,模型能够学习不同 FPS 采样率下的一致时间对齐。

2.2 预训练

在本节中,我们首先描述预训练数据集的构建,然后概述总体训练流程和配置。

2.2.1 预训练数据

与 Qwen2-VL 相比,我们大幅扩展了预训练数据的规模,从 1.2 万亿个令牌增加到约 4 万亿个令牌。我们的预训练数据集通过多种方法构建,包括清理原始网络数据、合成数据等。数据集涵盖了广泛的多模态数据,如图像字幕、交错图像-文本数据、光学字符识别 (OCR) 数据、视觉知识(例如名人、地标、动植物识别)、多模态学术问题、定位数据、文档解析数据、视频描述、视频定位和基于代理的交互数据。在整个训练过程中,我们仔细调整了这些数据类型在不同阶段的组成和比例,以优化学习效果。

交错图像-文本数据 交错图像-文本数据对于多模态学习至关重要,具有三个关键优势:(1) 启用带有同时视觉和文本提示的上下文学习 (Alayrac et al., 2022),(2) 当缺少图像时保持强大的纯文本能力 (Lin et al., 2024),(3) 包含广泛的一般信息。然而,许多可用的交错数据缺乏有意义的文本-图像关联,通常是嘈杂的,限制了其在复杂推理和创造性生成方面的有用性。

为了解决这些问题,我们开发了一个评分和清理数据的流水线,确保只使用高质量的相关交错数据。我们的过程包括两个步骤:标准数据清理 (Li et al., 2024e),然后是一个内部评估模型的四阶段评分系统。评分标准包括:(1) 纯文本质量,(2) 图像-文本相关性,(3) 图像-文本互补性,(4) 信息密度平衡。这种细致的方法提高了模型执行复杂推理和生成连贯多模态内容的能力。

以下是这些图像-文本评分标准的描述:

图像-文本相关性:较高的分数表示图像和文本之间的联系更强,其中图像有意义地补充、解释或扩展文本,而不仅仅是装饰。

信息互补性:较高的分数反映了图像和文本之间更多的互补信息。每一方都应提供独特的细节,共同构成一个完整的故事。

信息密度平衡:较高的分数意味着图像和文本之间的信息分布更加平衡,避免过多的文本或图像信息,确保两者之间的适当平衡。

基于绝对位置坐标的定位数据 我们采用原生分辨率训练,以实现对世界的更准确感知。相比之下,相对坐标无法有效表示图像中对象的原始大小和位置。为了解决这一限制,Qwen2.5-VL 在训练过程中使用基于输入图像实际尺寸的坐标值来表示边界框和点。这种方法确保模型能够更好地捕捉对象的真实世界尺度和空间关系,从而在对象检测和定位等任务中提高性能。

为了提高定位能力的泛化性,我们开发了一个全面的数据集,涵盖带有指代表达式的边界框和点,利用公开数据集和专有数据。我们的方法涉及将数据合成到各种格式,包括 XML、JSON 和自定义格式,采用诸如复制粘贴增强 (Ghiasi et al., 2021) 和 Grounding DINO (Liu et al., 2023c) 和 SAM (Kirillov et al., 2023) 等现成模型的合成技术。这种方法促进了更稳健的评估和定位能力的提升。

为了提高模型在开放词汇检测中的性能,我们将训练数据集扩展到超过 10,000 个对象类别。此外,为了提高模型在极端对象检测场景中的有效性,我们在查询中合成了不存在的对象类别,并构建了包含每个对象多个实例的图像数据。

为了确保优越的基于点的对象定位能力,我们构建了一个综合的指向数据集,包括公开和合成数据。具体而言,数据来源包括来自 PixMo (Deitke et al., 2024) 的公开指向和计数数据、公开可访问的对象定位数据(来自对象检测和实例分割任务),以及通过自动化管道生成的精确指向某些图像细节的合成数据。

全文档解析数据 为了训练 Qwen2.5-VL,我们合成了大量文档数据。传统的文档内容解析方法通常依赖于单独的模型来处理布局分析、文本提取、图表解释和插图处理。相比之下,Qwen2.5-VL 设计为赋予通用模型全面的解析、理解和转换文档格式的能力。具体而言,我们在文档中加入了各种元素,如表格、图表、方程、自然或合成图像、乐谱和化学公式。这些元素统一格式为 HTML,将布局框信息和插图描述整合到 HTML 标签结构中。我们还根据典型的阅读顺序丰富了文档布局,并在 HTML 基础的真实情况中包含了段落和图表等模块的坐标。这种创新方法使任何文档的完整信息,包括其布局、文本、图表和插图,都能以标准化和统一的方式表示。因此,Qwen2.5-VL 实现了多模态文档元素的无缝集成,从而促进更高效和准确的文档理解和转换。

以下是 QwenVL HTML 格式:

QwenVL HTML 格式

# 段落

内容

# 表格 表格内容
# 图表
图表内容
# 公式
公式内容
# 图像说明

图像说明

# 图像 OCR

图像 OCR

# 乐谱
乐谱内容
# 化学公式内容
化学公式内容

这种格式确保所有文档元素以结构化和可访问的方式表示,使 Qwen2.5-VL 能够高效处理和理解。

OCR 数据 来自不同来源的数据被收集和整理,以增强 OCR 性能,包括合成数据、开源数据和内部收集的数据。合成数据通过视觉文本生成引擎生成,以产生高质量的野外文本图像。为了支持更广泛的语言并增强多语言能力,我们纳入了一个大规模的多语言 OCR 数据集。该数据集包括对法语、德语、意大利语、西班牙语、葡萄牙语、阿拉伯语、俄语、日语、韩语和越南语等多种语言的支持。数据集经过精心策划,以确保多样性和质量,利用高质量的合成图像和现实世界的自然场景图像。这种组合确保了在各种语言环境下的稳健性能,并提高了模型对不同文本外观和环境条件的适应性。对于图表类型数据,我们使用可视化库(包括 matplotlib、seaborn 和 plotly)合成了 100 万个样本,涵盖了条形图、关系图和热图等图表类别。对于表格数据,我们通过离线端到端表格识别模型处理了 600 万个现实世界样本,随后过滤掉低置信度表格、重叠表格和单元格密度不足的表格。

视频数据 为了确保在不同帧率 (FPS) 下对视频数据的理解具有增强的鲁棒性,我们在训练过程中动态采样 FPS,以在训练数据集中实现更均匀的 FPS 分布。此外,对于超过半小时的视频,我们通过有针对性的合成流水线专门构建了一组长视频字幕。关于视频定位数据,我们将时间戳格式化为基于秒的格式和小时-分钟-秒-帧 (hmsf) 格式,确保模型能够准确理解和输出各种格式的时间。

代理数据 我们增强感知和决策能力,以构建 Qwen2.5-VL 的代理功能。对于感知,我们在移动、Web 和桌面平台上收集屏幕截图。使用合成数据引擎生成屏幕截图字幕和 UI 元素定位注释。字幕任务帮助 Qwen2.5-VL 理解图形界面,而定位任务帮助其对齐元素的外观和功能。对于决策,我们首先将移动、Web 和桌面平台的操作统一为具有共享动作空间的函数调用格式。从开源数据和代理框架 (Wang et al., 2025; 2024b;c) 在虚拟环境中合成的一组带注释的多步骤轨迹被重新格式化为函数格式。我们进一步通过人工和模型注释者 (Xu et al., 2024) 生成每个步骤的推理过程。具体来说,给定一个真实操作,我们在屏幕截图上突出显示它。然后,我们向注释者提供全局查询以及此操作前后的屏幕截图,并要求他们编写推理内容以解释此操作的意图。使用基于模型的过滤器筛选出低质量的推理内容。这种推理内容防止 Qwen2.5-VL 过度拟合真实操作,并使其在实际场景中更具鲁棒性。

阶段视觉预训练多模态预训练长上下文预训练
数据图像字幕
知识
OCR
+
纯文本
交错数据
VQA, 视频
定位, 代理
+
长视频
长代理
长文档
令牌1.5T2T0.6T
序列长度8192819232768
训练ViTViT & LLMViT & LLM

表 2:不同阶段的训练数据量和组成。

2.2.2 训练配方

我们从头开始训练了一个 Vision Transformer (ViT),使用 DataComp (Gadre et al., 2023) 和一些内部数据集作为视觉编码器的初始化,同时利用预训练的 Qwen2.5 大型语言模型 (LLM) (Yang et al., 2024a) 作为 LLM 组件的初始化。如表 2, 所示,预训练过程分为三个不同的阶段,每个阶段采用不同的数据配置和训练策略,逐步增强模型的能力。

在第一阶段,仅训练 Vision Transformer (ViT) 以改善其与语言模型的对齐,为多模态理解奠定坚实的基础。此阶段的主要数据来源包括图像字幕、视觉知识和 OCR 数据。这些数据集经过精心选择,以促进 ViT 提取有意义的视觉表示,这些表示可以有效地与文本信息集成。

在第二阶段,所有模型参数都被解冻,并在多样化的多模态图像数据上进行训练,以增强其处理复杂视觉信息的能力。此阶段引入了更多复杂和推理密集的数据集,如交错数据、多任务学习数据集、视觉问答 (VQA)、多模态数学、基于代理的任务、视频理解和纯文本数据集。这些数据集加强了模型在视觉和语言模态之间建立更深层次联系的能力,使其能够处理越来越复杂的任务。

在第三阶段,为了进一步增强模型在较长序列上的推理能力,引入了视频和基于代理的数据,并增加了序列长度。这使模型能够以更高的精度处理更高级和复杂的多模态任务。通过延长序列长度,模型获得了处理扩展上下文的能力,这对于需要长距离依赖和复杂推理的任务特别有益。

为了解决由于图像大小和文本长度的变化而导致的训练过程中计算负载不平衡的问题,我们采用了一种优化训练效率的策略。主要的计算成本来自于 LLM 和视觉编码器。鉴于视觉编码器的参数相对较少,并且我们引入了窗口注意力以进一步减少其计算需求,我们专注于平衡 LLM 在不同 GPU 上的计算负载。具体来说,我们根据输入序列长度动态打包数据样本,确保一致的计算负载。在第一和第二阶段,数据被统一打包到 8,192 的序列长度,而在第三阶段,序列长度增加到 32,768,以适应模型处理更长序列的能力。

2.3 后训练

Qwen2.5-VL 的后训练对齐框架采用双阶段优化范式,包括监督微调 (SFT) 和直接偏好优化 (DPO) (Rafailov et al., 2023)arXiv:2403.20330, 2024c.

  • Mark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Pondé de Oliveira Pinto, Jared Kaplan, Harrison Edwards, Yuri Burda, Nicholas Joseph, Greg Brockman, Alex Ray, Raul Puri, Gretchen Krueger, Michael Petrov, Heidy Khlaaf, Girish Sastry, Pamela Mishkin, Brooke Chan, Scott Gray, Nick Ryder, Mikhail Pavlov, Alethea Power, Lukasz Kaiser, Mohammad Bavarian, Clemens Winter, Philippe Tillet, Felipe Petroski Such, Dave Cummings, Matthias Plappert, Fotios Chantzis, Elizabeth Barnes, Ariel Herbert-Voss, William Hebgen Guss, Alex Nichol, Alex Paino, Nikolas Tezak, Jie Tang, Igor Babuschkin, Suchir Balaji, Shantanu Jain, William Saunders, Christopher Hesse, Andrew N. Carr, Jan Leike, Joshua Achiam, Vedant Misra, Evan Morikawa, Alec Radford, Matthew Knight, Miles Brundage, Mira Murati, Katie Mayer, Peter Welinder, Bob McGrew, Dario Amodei, Sam McCandlish, Ilya Sutskever, and Wojciech Zaremba. Evaluating large language models trained on code. CoRR, abs/2107.03374, 2021.

  • 陈哲, 吴建南, 王文海, 苏伟杰, 陈果, 邢森, 钟慕言, 张庆龙, 朱希周, 卢乐威, 李斌, 罗平, 陆通, 乔宇, 戴继峰. Internvl: 扩大规模视觉基础模型并对其对齐以适应通用视觉-语言任务. arXiv预印本 arXiv:2312.14238, 2023.

  • 陈哲, 王维云, 曹越, 刘洋洲, 高张伟, 崔尔飞, 朱金国, 叶胜龙, 田浩, 刘兆阳等. 通过模型、数据和测试时扩展来扩大开源多模态模型的性能边界. arXiv预印本 arXiv:2412.05271, 2024d.

  • 程堪志, 孙秋石, 初有刚, 徐方之, 李延涛, 张建兵, 吴志勇. Seeclick: 利用GUI接地实现高级视觉GUI代理. arXiv预印本 arXiv:2401.10935, 2024.

  • Karl Cobbe, Vineet Kosaraju, Mohammad Bavarian, Mark Chen, Heewoo Jun, Lukasz Kaiser, Matthias Plappert, Jerry Tworek, Jacob Hilton, Reiichiro Nakano, Christopher Hesse, and John Schulman. Training verifiers to solve math word problems. CoRR, abs/2110.14168, 2021.

  • Yann N. Dauphin, Angela Fan, Michael Auli, and David Grangier. Language modeling with gated convolutional networks. In ICML, volume 70 of Proceedings of Machine Learning Research, pp. 933–941. PMLR, 2017.

  • Google Deepmind. Introducing gemini 2.0: our new ai model for the agentic era, 2024. URL https: //blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/.

  • DeepSeek-AI, 刘爱鑫, 冯蓓, 薛冰, 王炳轩, 吴博超, 陆成达, 赵成刚, 邓成琪, 张晨宇, 阮冲, 戴大麦, 郭大雅, 杨德健, 陈德利, 纪东杰, 李尔航, 林凡云, 戴福聪, 罗富丽, 郝广波, 陈冠廷, 李国伟, 张H., 鲍涵, 徐汉威, 王皓成, 张浩伟, 丁洪辉, 辛华健, 高华卓, 李辉, 屈晖, 蔡J.L., 梁建, 郭建忠, 倪家琦, 李佳石, 王佳伟, 陈晋, 陈景昌, 袁静扬, 邱俊杰, 李俊龙, 宋俊晓, 董凯, 胡凯, 高凯歌, 关康, 黄可欣, 余快, 王乐, 张乐聪, 徐磊, 夏乐怡, 赵亮, 王立同, 张丽月, 李萌, 王妙君, 张明川, 张明华, 唐明辉, 李明明, 田宁, 黄盼盼, 王佩伊, 张鹏, 王千成, 朱启豪, 陈沁雨, 杜秋实, 陈R.J., 金R.L., 格睿奇, 张瑞松, 潘瑞哲, 王润吉, 徐润鑫, 张若愚, 陈如意, 李S.S., 鲁尚浩, 周尚岩, 陈山煌, 吴绍青, 叶胜丰, 叶胜丰, 马世荣, 王世宇, 周双, 于水萍, 周顺风, 潘书婷, 王T., 云涛, 裴天, 孙天宇, 肖W.L., 曾王鼎. Deepseek-v3 技术报告. CoRR, abs/2412.19437, 2024. doi: 10.48550/ARXIV.2412.19437. URL https://doi.org/10.48550/arXiv.2412.19437.

  • Matt Deitke, Christopher Clark, Sangho Lee, Rohun Tripathi, Yue Yang, Jae Sung Park, Mohammadreza Salehi, Niklas Muennighoff, Kyle Lo, Luca Soldaini, et al. Molmo and pixmo: Open weights and open data for state-of-the-art multimodal models. arXiv预印本 arXiv:2409.17146, 2024.

  • 方新宇, 毛康瑞, 段浩东, 赵翔宇, 李一宁, 林大华, 陈凯. MMBench-Video: 用于全面视频理解的长格式多镜头基准. arXiv预印本 arXiv:2406.14515, 2024.

  • 傅朝友, 陈培贤, 沈云航, 秦玉磊, 张梦丹, 林旭, 邱振宇, 林伟, 杨金瑞, 郑夏武等. MME: 多模态大型语言模型的综合评估基准. arXiv:2306.13394, 2023.

  • 傅朝友, 戴宇涵, 罗永东, 李磊, 任书怀, 张仁瑞, 王子涵, 周晨宇, 沈云航, 张梦丹等. Video-MME: 多模态LLM在视频分析中的首个综合评估基准. arXiv:2405.21075, 2024a.

  • 傅玲, 杨彪, 匡哲彬, 宋家军, 李宇哲, 朱凌浩, 罗启迪, 王新宇, 卢浩, 黄明鑫, 李章, 唐国志, 单斌, 林春辉, 刘琪, 吴秉鸿, 冯浩, 刘浩, 黄灿, 唐敬群, 陈伟, 金连文, 刘玉良, 白翔. OCRBench V2: 用于评估大型多模态模型在视觉文本定位和推理上的改进基准, 2024b. URL https://arxiv.org/abs/2501.00321.

  • 傅星宇, 胡宇舒, 李邦正, 冯宇, 王浩宇, 林旭东, Dan Roth, Noah A Smith, Wei-Chiu Ma, Ranjay Krishna. Blink: 多模态大型语言模型可以看见但不能感知. 在 欧洲计算机视觉会议 中, 第148-166页. Springer, 2024c.

  • Samir Yitzhak Gadre, Gabriel Ilharco, Alex Fang, Jonathan Hayase, Georgios Smyrnis, Thao Nguyen, Ryan Marten, Mitchell Wortsman, Dhruba Ghosh, Jieyu Zhang, et al. DataComp: 寻找下一代多模态数据集. arXiv:2304.14108, 2023.

  • Jiyang Gao, Chen Sun, Zhenheng Yang, and Ram Nevatia. TALL: 通过语言查询进行时间活动定位. 在 IEEE国际计算机视觉会议论文集 中, 第5267-5275页, 2017.

  • Aryo Pradipta Gema, Joshua Ong Jun Leang, Giwon Hong, Alessio Devoto, Alberto Carlo Maria Mancino, Rohit Saxena, Xuanli He, Yu Zhao, Xiaotang Du, Mohammad Reza Ghasemi Madani, et al. Are we done with MMLU?CoRR, abs/2406.04127, 2024.

  • Golnaz Ghiasi, Yin Cui, Aravind Srinivas, Rui Qian, Tsung-Yi Lin, Ekin D Cubuk, Quoc V Le, 和 Barret Zoph. 简单的复制粘贴是实例分割的强大数据增强方法。在 IEEE/CVF 计算机视觉和模式识别会议论文集 中,第2918–2928页,2021年。

  • Tianrui Guan, Fuxiao Liu, Xiyang Wu, Ruiqi Xian, Zongxia Li, Xiaoyu Liu, Xijun Wang, Lichang Chen, Furong Huang, Yaser Yacoob, Dinesh Manocha, 和 Tianyi Zhou. Hallusionbench: 大型视觉-语言模型中纠缠语言幻觉和视觉错觉的高级诊断套件。arXiv:2310.14566, 2023年。

  • Jarvis Guo, Tuney Zheng, Yuelin Bai, Bo Li, Yubo Wang, King Zhu, Yizhi Li, Graham Neubig, Wenhu Chen, 和 Xiang Yue. Mammoth-vl: 通过大规模指令调优激发多模态推理。arXiv 预印本 arXiv:2412.05237, 2024年。

  • Dan Hendrycks, Collin Burns, Saurav Kadavath, Akul Arora, Steven Basart, Eric Tang, Dawn Song, 和 Jacob Steinhardt. 使用 MATH 数据集测量数学问题解决能力。在 NeurIPS 数据集和基准测试 中,2021年。

  • Kairui Hu, Penghao Wu, Fanyi Pu, Wang Xiao, Yuanhan Zhang, Xiang Yue, Bo Li, 和 Ziwei Liu. Videommmu: 评估从多学科专业视频中获取知识的能力。arXiv 预印本 arXiv:2501.13826, 2025年。

  • Sahar Kazemzadeh, Vicente Ordonez, Mark Matten, 和 Tamara Berg. Referitgame: 在自然场景照片中指代物体。在 EMNLP 中,2014年。

  • Aniruddha Kembhavi, Mike Salvato, Eric Kolve, Minjoon Seo, Hannaneh Hajishirzi, 和 Ali Farhadi. 一张图表胜过十几张图片。在 ECCV 中,2016年。

  • Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C Berg, Wan-Yen Lo, 等. Segment anything. 在 ICCV 中,2023年。

  • Byung-Kwan Lee, Beomchan Park, Chae Won Kim, 和 Yong Man Ro. Moai: 大型语言和视觉模型的所有智能混合。在 欧洲计算机视觉会议 中,第273–302页。Springer, 2024年。

  • Bo Li, Peiyuan Zhang, Jingkang Yang, Yuanhan Zhang, Fanyi Pu, 和 Ziwei Liu. Otterhd: 一种高分辨率多模态模型。arXiv:2311.04219, 2023a。

  • Bo Li, Yuanhan Zhang, Dong Guo, Renrui Zhang, Feng Li, Hao Zhang, Kaichen Zhang, Peiyuan Zhang, Yanwei Li, Ziwei Liu, 等. Llava-onevision: 简易视觉任务迁移。arXiv 预印本 arXiv:2408.03326, 2024a。

  • Bohao Li, Yuying Ge, Yi Chen, Yixiao Ge, Ruimao Zhang, 和 Ying Shan. Seed-bench-2-plus: 用文本丰富的视觉理解基准测试多模态大型语言模型。arXiv 预印本 arXiv:2404.16790, 2024b。

  • Dongxu Li, Yudong Liu, Haoning Wu, Yue Wang, Zhiqi Shen, Bowen Qu, Xinyao Niu, Guoyin Wang, Bei Chen, 和 Junnan Li. Aria: 一种开放的多模态原生混合专家模型。arXiv 预印本 arXiv:2410.05993, 2024c。

  • Junnan Li, Dongxu Li, Caiming Xiong, 和 Steven C. H. Hoi. Blip: 用于统一视觉-语言理解和生成的语言-图像预训练引导。在 ICML 中,2022a。

  • Junnan Li, Dongxu Li, Silvio Savarese, 和 Steven Hoi. Blip-2: 通过冻结图像编码器和大型语言模型进行语言-图像预训练引导。arXiv:2301.12597, 2023b。

  • Kaixin Li, Ziyang Meng, Hongzhan Lin, Ziyang Luo, Yuchen Tian, Jing Ma, Zhiyong Huang, 和 Tat-Seng Chua. Screenspot-pro: 专业高分辨率计算机使用的 GUI 接地,2025a。URL https://likaixin2000.github.io/papers/ScreenSpot_Pro.pdf。预印本。

  • Kunchang Li, Yali Wang, Yinan He, Yizhuo Li, Yi Wang, Yi Liu, Zun Wang, Jilan Xu, Guo Chen, Ping Luo, 等. Mvbench: 一个全面的多模态视频理解基准。在 CVPR 中,2024d。

  • Liunian Harold Li, Pengchuan Zhang, Haotian Zhang, Jianwei Yang, Chunyuan Li, Yiwu Zhong, Lijuan Wang, Lu Yuan, Lei Zhang, Jenq-Neng Hwang, 等. 基于接地的语言-图像预训练。在 IEEE/CVF 计算机视觉和模式识别会议论文集 中,第10965–10975页,2022b。

  • Qingyun Li, Zhe Chen, Weiyun Wang, Wenhai Wang, Shenglong Ye, Zhenjiang Jin, Guanzhou Chen, Yinan He, Zhangwei Gao, Erfei Cui, 等. Omnicorpus: 一个包含10亿级图像与文本交织的统一多模态语料库。arXiv 预印本 arXiv:2406.08418, 2024e。

  • Wei Li, William Bishop, Alice Li, Chris Rawles, Folawiyo Campbell-Ajala, Divya Tyamagundlu, 和 Oriana Riva. 关于数据规模对计算机控制代理的影响。arXiv 预印本 arXiv:2406.03679, 2024f。

  • Yadong Li, Haoze Sun, Mingan Lin, Tianpeng Li, Guosheng Dong, Tao Zhang, Bowen Ding, Wei Song, Zhenglin Cheng, Yuqi Huo, 等. Baichuan-omni 技术报告。arXiv 预印本 arXiv:2410.08565, 3(7), 2024g。

  • Yadong Li, Jun Liu, Tao Zhang, Song Chen, Tianpeng Li, Zehuan Li, Lijun Liu, Lingfeng Ming, Guosheng Dong, Da Pan, 等. Baichuan-omni-1.5 技术报告。arXiv 预印本 arXiv:2501.15368, 2025b。

  • Yunxin Li, Shenyuan Jiang, Baotian Hu, Longyue Wang, Wanqi Zhong, Wenhan Luo, Lin Ma, 和 Min Zhang. Uni-moe: 通过混合专家扩展统一多模态大模型。arXiv 预印本 arXiv:2405.11273, 2024h。

  • Zhang Li, Biao Yang, Qiang Liu, Zhiyin Ma, Shuo Zhang, Jingxu Yang, Yabo Sun, Yuliang Liu, 和 Xiang Bai. Monkey: 图像分辨率和文本标签对大型多模态模型的重要性。arXiv:2311.06607, 2023c。

  • Yuxuan Liang, Xu Li, Xiaolei Chen, Haotian Chen, Yi Zheng, Chenghang Lai, Bin Li, 和 Xiangyang Xue. 高分辨率大型视觉-语言模型中的全局语义引导子图像特征权重分配。arXiv 预印本 arXiv:2501.14276, 2025年。

  • Ji Lin, Hongxu Yin, Wei Ping, Pavlo Molchanov, Mohammad Shoeybi, 和 Song Han. Vila: 视觉语言模型的预训练。在 IEEE/CVF 计算机视觉和模式识别会议论文集 中,第26689–26699页,2024年。

  • Haotian Liu, Chunyuan Li, Yuheng Li, 和 Yong Jae Lee. 通过视觉指令调优改进基线。arXiv:2310.03744, 2023a。

  • Haotian Liu, Chunyuan Li, Qingyang Wu, 和 Yong Jae Lee. 视觉指令调优。arXiv:2304.08485, 2023b。

  • Shilong Liu, Zhaoyang Zeng, Tianhe Ren, Feng Li, Hao Zhang, Jie Yang, Chun yue Li, Jianwei Yang, Hang Su, Jun-Juan Zhu, 和 Lei Zhang. Grounding dino: 将 DINO 与基于接地的预训练结合用于开放集目标检测。arXiv:2303.05499, 2023c。

  • Yangzhou Liu, Yue Cao, Zhangwei Gao, Weiyun Wang, Zhe Chen, Wenhai Wang, Hao Tian, Lewei Lu, Xizhou Zhu, Tong Lu, 等. Mminstruct: 一个具有广泛多样性的高质量多模态指令调优数据集。中国科学:信息科学, 67(12):1–16, 2024a。

  • Yuan Liu, Haodong Duan, Bo Li, Yuanhan Zhang, Songyang Zhang, Wangbo Zhao, Yike Yuan, Jiaqi Wang, Conghui He, Ziwei Liu, Kai Chen, 和 Dahua Lin. Mmbench: 你的多模态模型是否全能?arXiv:2307.06281, 2023d。

  • Yuan Liu, Zhongyin Zhao, Ziyuan Zhuang, Le Tian, Xiao Zhou, 和 Jie Zhou. Points: 通过经济策略改进视觉-语言模型。arXiv 预印本 arXiv:2409.04828, 2024b。

  • Yuanxin Liu, Shicheng Li, Yi Liu, Yuxiang Wang, Shuhuai Ren, Lei Li, Sishuo Chen, Xu Sun, 和 Lu Hou. Tempcompass: 视频大模型真的理解视频吗?arXiv 预印本 arXiv:2403.00476, 2024c。

  • 刘宇亮, 李张, 黄明鑫, 杨彪, 于文文, 李春源, 尹旭成, 刘成林, 金连文, 和白翔。OCRbench:大型多模态模型中 OCR 的隐藏奥秘。arXiv:2305.07895, 2023e。

  • 卢攀, Hritik Bansal, Tony Xia, 刘嘉诚, 李春源, Hannaneh Hajishirzi, Cheng Hao, Kai-Wei Chang, Michel Galley, 和高建峰。MathVista:评估基础模型在视觉环境中的数学推理能力。在 ICLR,2024。

  • Karttikeya Mangalam, Raiymbek Akshulakov, 和 Jitendra Malik。EgoSchema:非常长视频语言理解的诊断基准。在 NeurIPS,2023。

  • Junhua Mao, Jonathan Huang, Alexander Toshev, Oana Camburu, Alan L Yuille, 和 Kevin Murphy。生成和理解无歧义的对象描述。在 CVPR,2016。

  • Ahmed Masry, Do Xuan Long, Jia Qing Tan, Shafiq Joty, 和 Enamul Hoque。ChartQA:图表问答基准,包含视觉和逻辑推理。arXiv:2203.10244, 2022。

  • Minesh Mathew, Viraj Bagal, Rubèn Pérez Tito, Dimosthenis Karatzas, Ernest Valveny, 和 C.V. Jawahar。InfographicVQA。2022 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), pp. 2582–2591, 2021a。

  • Minesh Mathew, Dimosthenis Karatzas, 和 CV Jawahar。DocVQA:文档图像上的 VQA 数据集。在 WACV,2021b。

  • MiniMax, 李安年, Gong Bangwei, Bo Yang, Shan Boji, Liu Chang, Zhu Cheng, Zhang Chunhao, Guo Congchao, Chen Da, Li Dong, Jiao Enwei, Li Gengxin, Zhang Guojun, Sun Haohai, Dong Houze, Zhu Jiadai, Zhuang Jiaqi, Song Jiayuan, Zhu Jin, Han Jingtao, Li Jingyang, Xie Junbin, Xu Junhao, Yan Junjie, Zhang Kaishun, Xiao Kecheng, Kang Kexi, Han Lei, Wang Leyang, Yu Lianfei, Feng Liheng, Zheng Lin, Chai Linbo, Xing Long, Ju Meizhi, Chi Mingyuan, Zhang Mozhi, Huang Peikai, Niu Pengcheng, Li Pengfei, Zhao Pengyu, Yang Qi, Xu Qidi, Wang Qiexiang, Wang Qin, Li Qiuhui, Leng Ruitao, Shi Shengmin, Yu Shuqi, Li Sichen, Zhu Songquan, Huang Tao, Liang Tianrun, Sun Weigao, Sun Weixuan, Cheng Weiyu, Li Wenkai, Song Xiangjun, Su Xiao, Han Xiaodong, Zhang Xinjie, Hou Xinzhu, Min Xu, Zou Xun, Shen Xuyang, Gong Yan, Zhu Yingjie, Zhou Yipeng, Zhong Yiran, Hu Yongyi, Fan Yuanxiang, Yu Yue, Yang Yufeng, Li Yuhao, Huang Yunan, Li Yunji, Huang Yunpeng, Xu Yunzhi, Mao Yuxin, Li Zehan, Li Zekang, Tao Zewei, Ying Zewen, Cong Zhaoyang, Qin Zhen, Fan Zhenhua, Yu Zhihang, Jiang Zhuo, 和 Wu Zijia。Minimax-01:使用闪电注意力扩展基础模型,2025。URL https://arxiv.org/abs/2501.08313

  • OpenAI。ChatML 文档,2024。URL https://github.com/openai/openai-python/blob/main/chatml. md
    OpenAI。Hello GPT-4O,2024。URL https://openai.com/index/hello-gpt-4o

  • 欧阳林科, 曲远, 周洪斌, 朱家伟, 张瑞, 林群书, 王斌, 赵志远, 江曼, 赵晓萌, 施金, 吴凡, 储培, 刘明浩, 李振祥, 徐超, 张波, 史博天, 涂忠英, 和何聪慧。OmnidocBench:具有全面注释的多样化 PDF 文档解析基准,2024。URL https://arxiv.org/abs/2412.07626

  • Roni Paiss, Ariel Ephrat, Omer Tov, Shiran Zada, Inbar Mosseri, Michal Irani, 和 Tali Dekel。教 CLIP 数到十。在 Proceedings of the IEEE/CVF International Conference on Computer Vision,pp. 3170–3180,2023。

  • Viorica Patraucean, Lucas Smaira, Ankush Gupta, Adria Recasens, Larisa Markeeva, Dylan Banarse, Skanda Koppula, Mateusz Malinowski, Yi Yang, Carl Doersch, 等。Perception Test:多模态视频模型的诊断基准。在 NeurIPS,2024。

  • 彭志良, 王文辉, 董力, 郝亚茹, 黄少涵, 马树铭, 和魏福瑞。Kosmos-2:将多模态大语言模型与现实世界对接。arXiv:2306.14824,2023。

  • Rafael Rafailov, Archit Sharma, Eric Mitchell, Christopher D. Manning, Stefano Ermon, 和 Chelsea Finn。直接偏好优化:你的语言模型实际上是一个奖励模型。在 Alice Oh, Tristan Naumann, Amir Globerson, Kate Saenko, Moritz Hardt, 和 Sergey Levine(编辑),Advances in Neural Information Processing Systems 36: Annual Conference on Neural Information Processing Systems 2023, NeurIPS 2023, New Orleans, LA, USA, December 10 - 16, 2023,2023。URL http://papers.nips.cc/ paper_files/paper/2023/hash/a85b405ed65c6477a4fe8302b5e06ce7-Abstract-Conference.html

  • Christopher Rawles, Sarah Clinckemaillie, Yifan Chang, Jonathan Waltz, Gabrielle Lau, Marybeth Fair, Alice Li, William Bishop, Wei Li, Folawiyo Campbell-Ajala, 等。AndroidWorld:自主代理的动态基准测试环境。arXiv:2405.14573,2024。

  • David Rein, Betty Li Hou, Asa Cooper Stickland, Jackson Petty, Richard Yuanzhe Pang, Julien Dirani, Julian Michael, 和 Samuel R. Bowman。GPQA:研究生级别的 Google-proof Q&A 基准。CoRR,abs/2311.12022,2023。

  • 任天合, 蒋青, 刘石龙, 曾朝阳, 刘文龙, 高寒, 黄宏杰, 马正宇, 蒋小可, 陈一豪, 等。Grounding DINO 1.5:推进开放集目标检测的“边缘”。arXiv 预印本 arXiv:2405.10300,2024。

  • Carlos Riquelme, Joan Puigcerver, Basil Mustafa, Maxim Neumann, Rodolphe Jenatton, André Susano Pinto, Daniel Keysers, 和 Neil Houlsby。使用稀疏混合专家扩展视觉处理。Advances in Neural Information Processing Systems,34:8583–8595,2021。

  • Amanpreet Singh, Vivek Natarajan, Meet Shah, Yu Jiang, Xinlei Chen, Dhruv Batra, Devi Parikh, 和 Marcus Rohrbach。迈向能够阅读的 VQA 模型。在 CVPR,2019。

  • 苏建林, Murtadha H. M. Ahmed, 陆宇, 潘胜丰, 博文, 和刘云峰。RoFormer:增强的旋转位置嵌入 Transformer。Neurocomputing,568:127063,2024。

  • Jingqun Tang, Qi Liu, Yongjie Ye, Jinghui Lu, Shu Wei, Chunhui Lin, Wanqing Li, Mohamad Fitri Faiz Bin Mahmood, Hao Feng, Zhen Zhao, Yanjie Wang, Yuliang Liu, Hao Liu, Xiang Bai, 和 Can Huang。MTVQA:多语言文本中心视觉问答基准。arXiv:2405.11985,2024。

  • Gemini 团队, Rohan Anil, Sebastian Borgeaud, Yonghui Wu, Jean-Baptiste Alayrac, Jiahui Yu, Radu Soricut, Johan Schalkwyk, Andrew M Dai, Anja Hauth, 等。Gemini:一个高度功能的多模态模型家族。arXiv 预印本 arXiv:2312.11805,2023。

  • 童圣邦, Ellis Brown, 吴鹏浩, Sanghyun Woo, Manoj Middepogu, Sai Charitha Akula, Jihan Yang, Shusheng Yang, Adithya Iyer, Pan Xichen, 等。Cambrian-1:完全开放的、以视觉为中心的多模态大语言模型探索。arXiv 预印本 arXiv:2406.16860,2024。

  • 王飞, 付兴宇, James Y Huang, 李泽坤, 刘琴, 刘晓耿, Ma Mingyu Derek, Nan Xu, 周文轩, 张凯, 等。MuirBench:一个全面的鲁棒多图像理解基准。arXiv 预印本 arXiv:2406.09411,2024a。

  • 王俊阳, 徐海洋, 贾海涛, 张曦, 严明, 沈维洲, 张继, 黄飞, 和桑吉涛。Mobile-Agent-V2:通过多代理协作实现有效的移动设备操作助手。arXiv 预印本 arXiv:2406.01014,2024b。

  • 王俊阳, 徐海洋, 叶家宝, 严明, 沈维洲, 张继, 黄飞, 和桑吉涛。Mobile-Agent:具有视觉感知的自主多模态移动设备代理。arXiv 预印本 arXiv:2401.16158,2024c。

  • 王柯, 潘俊廷, 石伟康, 陆子慕, 詹明杰, 和李红生。使用 Math-Vision 数据集测量多模态数学推理。arXiv:2402.14804,2024d。

  • 王鹏, 白帅, 谭思南, 王世杰, 范志浩, 白金泽, 陈克勤, 刘雪晶, 王佳琳, 郭文彬, 范洋, 党凯, 杜梦菲, 任宣成, 门瑞, 刘代亨, 周畅, 周景仁, 和林君阳。Qwen2-VL:增强任意分辨率下的视觉-语言模型感知能力。arXiv:2409.12191,2024e。

  • 王鹏, 白帅, 谭思南, 王世杰, 范志浩, 白金泽, 陈克勤, 刘雪晶, 王佳琳, 郭文彬, 等。Qwen2-VL:增强任意分辨率下的视觉-语言模型感知能力。arXiv 预印本 arXiv:2409.12191,2024f。

  • 王维汉, 何泽海, 洪文毅, Cheng Yean, 张晓涵, 齐骥, 顾晓涛, 黄诗雨, 徐斌, 董玉晓, 等。LVBench:极端长视频理解基准。arXiv 预印本 arXiv:2406.08035,2024g。

  • 王维云, 任一鸣, 罗浩文, 李天通, 严晨翔, 陈哲, 汪文海, 李庆云, 陆乐威, 朱希周, 等。全视项目 V2:迈向开放世界的通用关系理解。arXiv 预印本 arXiv:2402.19474,2024h。

  • 汪文海, 戴继峰, 陈哲, 黄振航, 李志奇, 朱西周, 胡晓伟, 陆同, 陆乐威, 李红生, 等。InternImage:探索大规模视觉基础模型与可变形卷积。在 Proceedings of the IEEE/CVF conference on computer vision and pattern recognition,pp. 14408–14419,2023。

  • 王新龙, 张晓松, 罗政雄, 孙全, 崔玉峰, 王金生, 张帆, 王月泽, 李震, 余启英, 等。Emu3:下一个标记预测就是你所需要的全部。arXiv 预印本 arXiv:2409.18869,2024i。

  • 王宇博, 马学光, 张戈, 倪元盛, Abhranil Chandra, 郭士广, 任卫明, Aaran Arulraj, 何轩, 江子言, 李天乐, Max Ku, 王凯, Alex Zhuang, 范荣琪, 余翔, 和陈文虎。MMLU-Pro:更稳健和更具挑战性的多任务语言理解基准。CoRR,abs/2406.01574,2024j。

  • 王振海龙, 徐海洋, 王俊阳, 张曦, 严明, 张继, 黄飞, 和纪衡。Mobile-Agent-E:复杂任务的自进化移动助手。arXiv 预印本 arXiv:2501.11733,2025。

  • 王子睿, 夏孟舟, 何璐希, Howard Chen, 刘一涛, 朱理查德, 梁凯琦, 吴欣迪, 刘浩天, Sadhika Malladi, Alexis Chevalier, Sanjeev Arora, 和陈丹琦。CharXiv:多模态大语言模型中实际图表理解的差距。arXiv 预印本 arXiv:2406.18521,2024k。

  • Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Ed H. Chi, Quoc Le, 和 Denny Zhou。链式思维提示在大语言模型中引发推理。CoRR,abs/2201.11903,2022。URL https://arxiv.org/abs/2201.11903

  • Colin White, Samuel Dooley, Manley Roberts, Arka Pal, Benjamin Feuer, Siddhartha Jain, Ravid Shwartz-Ziv, Neel Jain, Khalid Saifullah, Siddartha Naidu, Chinmay Hegde, Yann LeCun, Tom Goldstein, Willie Neiswanger, 和 Micah Goldblum。LiveBench:一个具有挑战性且无污染的 LLM 基准。CoRR,abs/2406.19314,2024。

  • 吴浩宁, 李东旭, 陈蓓, 和李俊南。LongVideoBench:长上下文交织视频-语言理解基准,2024a。URL https://arxiv.org/abs/2407.15754

  • 吴志宇, 陈晓康, 潘子正, 刘星超, 刘文, 戴达迈, 高华卓, 马一扬, 吴成越, 王冰轩, 等。DeepSeek-VL2:用于高级多模态理解的混合专家视觉-语言模型。arXiv 预印本 arXiv:2412.10302,2024b。

  • X.AI。Grok-1.5 视觉预览。https://x.ai/blog/grok-1.5v,2024。

  • 肖斌, 吴海平, 许伟健, 戴喜洋, 胡厚栋, 陆宇茂, Michael Zeng, 刘策, 和袁路。Florence-2:推进多种视觉任务的统一表示(2023)。URL https://arxiv.org/abs/2311.06242,2023。

  • Tianbao Xie, Danyang Zhang, Jixuan Chen, Xiaochuan Li, Siheng Zhao, Ruisheng Cao, Jing Hua Toh, Zhoujun Cheng, Dongchan Shin, Fangyu Lei, 等。OSWorld:在真实计算机环境中对多模态代理进行开放式任务的基准测试。Advances in Neural Information Processing Systems,37: 52040–52094,2025。

  • 徐一恒, 王泽坤, 王俊丽, 陆敦杰, 谢天宝, Amrita Saha, Doyen Sahoo, 俞涛, 和熊才明。AguVis:用于自主 GUI 交互的纯视觉统一代理。arXiv 预印本 arXiv:2412.04454,2024。

  • 杨安, 杨保松, 张贝辰, 惠斌渊, 于波, 陈成元, 刘代亨, 黄飞, 等。Qwen2.5 技术报告。arXiv:2412.15115,2024a。

  • 杨智博, 唐军, 李兆海, 王鹏飞, 万建强, 钟湖民, 刘雪晶, 杨明坤, 王鹏, 白帅, 金连文, 和林君阳。CC-OCR:评估大型多模态模型识字能力的全面且具挑战性的 OCR 基准,2024b。URL https://arxiv.org/ abs/2412.02210

  • 叶翰荣, 黄德安, 陆瑶, 余志定, 丁伟, Andrew Tao, Jan Kautz, Song Han, 丹旭, Pavlo Molchanov, 等。X-VILA:大型语言模型的跨模态对齐。arXiv 预印本 arXiv:2405.19335,2024。

  • 叶庆皓, 徐海洋, 叶家宝, 严明, 刘浩伟, 钱启, 张继, 黄飞, 和周景仁。mPLUG-Owl2:通过模态协作革新多模态大语言模型。arXiv:2311.04257,2023。

  • 于维浩, 杨正远, 李林杰, 王建峰, 林凯文, 刘子成, 王新超, 和王丽娟。MM-VET:评估大型多模态模型的综合能力。在 ICML,2024。

  • 岳翔, 倪元盛, 张凯, 郑天宇, 刘若琪, 张戈, Samuel Stevens, 蒋东富, 任卫明, 孙宇轩, 等。MMMU:面向专家 AGI 的大规模多学科多模态理解和推理基准。arXiv:2311.16502,2023。

  • 岳翔, 郑天宇, 倪元盛, 王宇博, 张凯, 童圣邦, 孙宇轩, 殷明, 于博涛, 张戈, 等。MMMUPRO:更稳健的多学科多模态理解基准。arXiv 预印本 arXiv:2409.02813,2024。

  • Biao Zhang 和 Rico Sennrich。均方根层归一化。在 NeurIPS,2019。

  • 张浩天, You Haoxuan, Philipp Dufter, 张博文, 陈晨, 陈鸿宇, Fu Tsu-Jui, William Yang Wang, Shih-Fu Chang, 甘哲, 和杨因飞。Ferret-V2:基于大语言模型的改进引用和定位基线。arXiv:2404.07973,2024a。

  • 张潘, 董晓艺, 曹宇航, 臧宇航, 钱瑞, 魏希林, 陈林, 李一飞, 牛俊波, 丁双瑞, 等。InternLM-XComposer2.5-OmniLive:适用于长期流媒体视频和音频交互的综合多模态系统。arXiv 预印本 arXiv:2412.09596,2024b。

  • 张仁瑞, 蒋东志, 张一驰, 林浩坤, 郭子瑜, 丘鹏硕, 周傲君, 卢攀, Kai-Wei Chang, 乔宇, 等。MathVerse:你的多模态大语言模型真的能看到视觉数学问题中的图表吗?在 欧洲计算机视觉会议,第 169-186 页。Springer,2024c。

  • 张涛, 李向泰, 费浩, 袁浩博, 吴胜琼, 纪顺平, 陈忠毅, 和严水成。OMG-LLAVA:连接图像级、对象级和像素级推理与理解。arXiv 预印本 arXiv:2406.19389,2024d。

  • 张天宇, 王素云, 李路, 张戈, Perouz Taslakian, Sai Rajeswar, 傅杰, 刘邦, 和 Yoshua Bengio。VCR:视觉字幕恢复。arXiv:2406.06462,2024e。

  • 张一凡, 张桓宇, 田昊辰, 付超友, 张双庆, 吴俊飞, 李峰, 王坤, 文青松, 张张, 等。MME-RealWorld:你的多模态大语言模型能否挑战高分辨率的现实世界场景,这些场景对人类来说也很难?arXiv 预印本 arXiv:2408.13257,2024f。

  • 赵一伦, 谢路静, 张浩伟, 甘果, 龙一涛, 胡志远, 胡同言, 陈伟渊, 李楚涵, 宋俊阳, 徐志坚, 王成业, 潘伟峰, 商冠子瑶, 唐向瑞, 梁振文, 刘一鑫, 赵晨, 和 Arman Cohan。MMVU:衡量专家级多学科视频理解,2025。URL https://arxiv.org/abs/2501.12380

  • Jeffrey Zhou, 陆天健, Swaroop Mishra, Siddhartha Brahma, Sujoy Basu, 刘毅, Denny Zhou, 和侯乐。大型语言模型的指令跟随评估。CoRR,abs/2311.07911,2023。

  • 周俊杰, 舒燕, 赵博, 吴博雅, 肖世涛, 杨曦, 熊永平, 张波, 黄铁军, 和刘峥。MLVU:一个多任务长视频理解的综合基准。arXiv 预印本 arXiv:2406.04264,2024。

参考 Paper:https://arxiv.org/pdf/2502.13923

### Qwen2.5-VL 技术介绍 #### 模型概述 Qwen2.5-VL 是由阿里云团队开发的多模态大型语言模型系列的一部分。该模型专注于处理复杂的视觉任务,特别是理解和分析长时间视频的能力[^1]。 #### 主要特性 - **长视频理解与事件捕捉** Qwen2.5-VL 展现出了卓越的理解超过一小时长度视频内容的能力,并能精确定位到特定时间点上的重要事件或动作。这种功能使得机器可以像人类一样识别并提取出有意义的信息片段。 - **精确视觉定位** 利用先进的算法框架,Qwen2.5-VL 不仅可以在图片中标记目标对象的位置(通过绘制边界框bounding boxes),还可以标注具体的兴趣点points。这些标记会以结构化的JSON格式返回给用户,便于进一步的数据处理和应用集成。 ```json { "objects": [ { "label": "car", "bbox": [0.1, 0.2, 0.7, 0.8], "attributes": {"color": "red"} } ] } ``` #### 开源资源获取方式 对于希望深入研究或部署此模型的研究人员和技术开发者来说,可以通过访问官方GitHub仓库获得完整的代码库和支持文档。具体操作命令如下所示: ```bash git clone https://github.com/QwenLM/Qwen2.5-VL.git ``` #### 应用场景举例 考虑到其强大的多媒体解析能力和高效的物体检测机制,Qwen2.5-VL 在多个领域有着广泛的应用前景,比如但不限于: - 安防监控系统的实时异常行为监测; - 自动驾驶车辆周围环境感知; - 媒体娱乐行业内的智能剪辑工具支持等。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Paper易论

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值