阿里达摩院提出VideoLLaMA3！多模态图像和视频理解超过Qwen2-VL！-CSDN博客

本文链接：https://blog.csdn.net/Androiddddd/article/details/145565734

在这里插入图片描述

论文名：VideoLLaMA3: Frontier Multimodal Foundation Models for Image and Video Understanding
论文链接：https://arxiv.org/pdf/2501.13106
开源代码：https://github.com/DAMO-NLP-SG/VideoLLaMA3

导读

近年来，大型语言模型（LLMs）的快速发展显著增强了自然语言处理和理解能力。LLMs 的增长使得语言层面的智能成为可能。然而，为了进一步推进，我们需要超越语言的智能，因为世界本身本质上是多模态的。具体来说，模型应该能够感知静态场景和动态环境，这需要具备理解图像和视频的能力。基于 LLMs 的成功，多模态 LLMs（MLLMs）被提出用于多模态理解。

简介

在本文中，我们提出了 VideoLLaMA3，一种更先进的多模态基础模型，用于图像和视频理解。VideoLLaMA3 的核心设计理念是以视觉为中心。"以视觉为中心"的含义有两层：以视觉为中心的训练范式以及以视觉为中心的框架设计。我们以视觉为中心的训练范式的关键见解是，高质量的图像-文本数据对于图像和视频理解都至关重要。我们没有准备大量的视频-文本数据集，而是专注于构建大规模且高质量的图像-文本数据集。VideoLLaMA3 有四个训练阶段：1）视觉编码器适应，使视觉编码器能够接受可变分辨率的图像作为输入；2）视觉-语言对齐，通过涵盖多种类型（包括场景图像、文档、图表）的大规模图像-文本数据以及纯文本数据，联合调整视觉编码器、投影器和大型语言模型；3）多任务微调，结合图像-文本 SFT 数据进行下游任务训练，并使用视频-文本数据为视频理解奠定基础；4）以视频为中心的微调，进一步提高模型在视频理解方面的能力。在框架设计方面，为了更好地捕捉图像中的细粒度细节，预训练的视觉编码器被调整为将不同大小的图像编码为相应数量的视觉标记，而不是固定数量的标记。对于视频输入，我们根据它们的相似性减少视觉标记的数量，从而使视频的表示更加精确和紧凑。得益于以视觉为中心的设计，VideoLLaMA3 在图像和视频理解基准测试中取得了令人信服的表现。

图2：VideoLLaMA3的训练范式。VideoLLaMA3的训练分为四个阶段：(1) 视觉编码器适应，(2) 视觉-语言对齐，(3) 多任务微调，(4) 视频中心微调。

2 方法论

如图3所示，在模型方面，VideoLLaMA3包含两个关键技术点：O 任意分辨率视觉标记化（AVT）和差分帧剪枝器（DiffFP）。在数据方面，由于我们建议基于图像理解来提高视频理解能力，因此我们还开发了一个构建高质量重新标注图像数据集的流程。

图3：我们的VideoLLaMA3的整体流程。有两个关键技术点：任意分辨率视觉标记化（AVT）：AVT将任何分辨率的图像或视频转换为一组一维标记序列，从而支持不同数量的输入图像和不同分辨率的视频，从而支持更灵活的视觉输入；& 差分帧剪枝器（DiffFP）：作为视频压缩器，DiffFP消除了相邻帧之间差异最小的视频内容。这种方法提高了视频处理效率，特别是对于长视频。

2.1 任意分辨率视觉标记化

在多模态大语言模型（MLLMs）中，视觉输入被提取为视觉标记以进行多模态理解。常见的做法是使用预训练的基于ViT的视觉编码器提取视觉输入。预训练的视觉编码器只能接收固定分辨率的图像，这会导致信息丢失。为了减轻信息丢失，提出了任意分辨率技术（AnyRes）[28, 31, 32]，将图像分割为固定分辨率的块。尽管AnyRes技术增加了视觉标记的数量，但在提取视觉标记时仍然不够灵活，并且忽略了图像内的位置关系。在VideoLLaMA3中，我们采用了任意分辨率视觉标记化（AVT）[30, 49] 的思想，动态处理任意分辨率的图像和视频。具体来说，我们通过采用一种策略将ViT中的绝对位置嵌入替换为2D-RoPE [50]，使预训练的视觉编码器（基于ViT的架构）能够处理可变分辨率。通过AVT，不同分辨率的图像和视频能够更好地表示，视觉标记中包含更多细节。为了使视觉编码器与AVT兼容，我们在视觉编码器适应阶段（即图2中的阶段#1）使用场景图像、文档数据以及带有文本的场景图像对视觉编码器和投影器进行微调。

图4：我们的DiffFP的计算流程。我们基于像素空间中的补丁相似性修剪视频标记，移除与前一帧距离较小的补丁。

2.2 差分帧修剪器

对于视频，输入通常在标记化后比图像输入有更多的标记，为了减少视频的计算需求，我们通过双线性插值应用每帧空间下采样，以将上下文长度限制在一定范围内。此外，考虑到视频由具有重叠内容的帧组成，通过堆叠每帧的视觉标记来表示视频会导致冗长和冗余的标记。为了进一步减少视频的标记数量，我们提出了差分帧修剪器（DiffFP）来修剪视频标记。受RLT [51]的启发，我们比较了像素空间内时间上连续的补丁之间的1-范数距离。我们认为时间上连续的补丁距离较小是冗余的，后续的补丁可以被修剪。具体来说，如图4所示，我们首先计算像素空间中连续帧之间的1-范数距离，然后移除距离低于预定义阈值的补丁。根据RLT [51]，我们将默认阈值设置为0.1。

2.3 高质量图像重新标注数据集的构建

为了训练我们的VideoLLaMA3，我们构建了一个高质量的图像重新标注数据集VL3-Syn7M。该数据集中的所有图像均来自COYO-700M [52]，并使用我们提出的清理流程进行处理，如下所示：

宽高比过滤。我们首先根据图像的宽高比进行过滤，移除具有极端值的图像。此步骤确保数据集中包含具有典型宽高比的图像，防止在特征提取过程中产生潜在的偏差。例如，过长或过宽的图像可能会因其不寻常的形状而扭曲模型的解释。
美学评分过滤。应用美学评分模型来评估图像的视觉质量。根据这些评分，美学评分低的图像被丢弃。此步骤消除了视觉上较差或构图不佳的图像，减少了噪声并提高了模型生成的描述的质量。
使用粗略字幕进行文本-图像相似度计算。使用 BLIP2 模型为图像生成初始字幕，然后使用 CLIP 模型计算文本-图像相似度。相似度低的图像被排除，因为它们可能包含难以简洁描述的内容。此过程确保剩余的图像既具有描述性又可解释。
视觉特征聚类。使用 CLIP 视觉模型提取视觉特征，并应用 k-最近邻 (KNN) 算法进行聚类。此方法识别视觉特征空间中的聚类中心。从每个聚类中，我们选择固定数量的图像。此方法确保数据集内的多样性，同时保持语义类别的平衡分布，提高模型在各种视觉内容上的泛化能力。
图像重新字幕。在过滤和聚类图像后，我们进行详细的重新字幕。使用 InternVL2-8B [31, 53] 生成简短字幕，而详细字幕则由 InternVL2-26B [31, 53] 生成。这两种类型的字幕（VL3-Syn7M-short 和 VL3-Syn7-detailed）在训练的不同阶段使用，以满足不同的需求。

通过上述的清理和重新字幕过程，我们创建了 VL3-Syn7M 数据集，该数据集包含 700 万张图像-字幕对。这个高质量的数据集将成为训练我们模型的关键组成部分，提供丰富多样的图像和注释，支持在各种视觉任务中的强大表现。

3 训练

如图3所示，VideoLLaMA3由四个关键组件组成：视觉编码器、视频压缩器、投影器和大型语言模型（LLM）。视觉编码器提取视觉标记，并使用预训练的SigLIP [54]进行初始化。为了减少表示视频的视觉标记数量，采用了视频压缩器。投影器连接视觉编码器和LLM之间的特征。对于LLM，我们使用了Qwen2.5模型 [5]。

受到之前MLLMs [24, 28, 30]探索的启发，我们在强大的图像理解基础上开发了视频理解能力。为了使模型同时具备强大的图像和视频理解能力，VideoLLaMA3的训练分为四个阶段：1）视觉编码器适应，2）视觉-语言对齐，3）大规模多任务微调，4）以视频为中心的微调。前三个阶段主要侧重于提高图像理解能力，而最后一个阶段则专注于视频理解。训练阶段的细节如下：

1）视觉编码器适应阶段。在此阶段，我们在大规模图像数据集上对视觉编码器进行微调，该编码器使用预训练的SigLIP [54]进行初始化。在此阶段，视觉编码器是可训练的，而语言解码器保持冻结状态。这种微调将编码器转变为动态分辨率处理器，增强了其处理不同分辨率图像的能力。同时，投影器被训练以更好地对齐视觉编码器和LLM的特征。

2）视觉-语言对齐阶段。此阶段主要侧重于将多模态知识引入模型。在此阶段，所有参数都是可训练的，使得LLM和视觉编码器都能够进行微调以整合多模态知识。

3）多任务微调阶段。在此阶段，我们使用多样化的多模态问答数据进行指令微调，这些数据包括基于图像和视频的问题。此步骤对于提高模型遵循自然语言指令的能力和增强其多模态理解至关重要。此外，此阶段为模型的视频理解能力奠定了基础，使其能够处理和分析时间信息。同时，在此阶段，我们引入了视频压缩器以减少视频标记的数量。

4）以视频为中心的微调阶段。在此阶段，我们专注于增强模型的视频理解能力。在此阶段，所有参数都被解冻。此阶段使用的数据包括视频-文本数据、仅图像数据和仅文本数据。

图5：不同数据类型的数据格式。对于图像序列，我们使用"\n"来分隔不同图像的图像标记；对于视频序列，我们使用"Time: xxs"来指示每帧的时间戳，",“来分隔不同的帧，”\n"来分隔不同视频的标记；对于流媒体视频序列，视频和文本以交错格式组织。

3.1 数据格式

图像、视频和流媒体视频的数据格式如图5所示。

图像序列。图像被表示为一系列标记，称为图像标记。“\n"字符用于分隔属于不同图像的标记。此外，文本标记跟随图像标记，由”\n"分隔，从而实现图像和文本数据的混合表示。

视频序列。视频序列中的帧被表示为帧标记。在每帧的标记之前，插入格式为"Time: xxs"的时间戳标记，以表示该帧对应的时间。视频序列中的帧由逗号",“分隔。在视频标记之后，插入”"以将视频数据与任何后续的文本标记分隔开，确保两种模态之间的清晰区分。

流媒体视频序列。对于流媒体视频数据，视频和文本标记在序列中交错排列。时间戳（即"Time: xxs"）插入在帧标记之前，类似于视频序列。为了模拟流媒体视频的交互场景，答案标记（即"GPT: xxx"）可能出现在序列中，以表示上下文化的输出或交互。交错格式确保了视频和文本数据流的无缝集成。

3.2 数据混合

遵循 LLaVA-OneVision [28] 中概述的原则，即“质量优于数量”，我们进行了严格的清理程序以保证数据质量。在本节中，我们详细描述了每个阶段的数据混合，以及应用于不同数据子集的合成和清理方法。

3.2.1 视觉编码器适配

视觉编码器适应阶段旨在增强模型理解各种场景的能力，并提高其特征提取能力，特别关注捕捉对象、区域和文本等细粒度信息。如表1所示，此阶段的训练数据结合了场景图像和文档识别图像，以及一小部分场景文本图像。需要注意的是，所有标记为“Recap”的数据均由InternVL2-8B [31]生成的标题组成。

对于场景图像，我们的数据来源包括VL3-Syn7M-short、LLaVA-Pretrain-558K [55]、Object365 [56]和SA-1B [57]。值得注意的是，Object365和SA-1B数据集被包含在内以增强数据多样性，因为该数据集中的图像主要是复杂场景。

场景文本图像来源于BLIP3-OCR [58]。简短的重新描述和图像中的文本内容都被用作标题，文本内容标题遵循从左到右、从上到下的图像模式。

此阶段使用的文档图像是pdfa-eng-wds [59]和idl-wds [60]的子集。从这两个数据集中选择了280万张图像，文档的文本内容作为图像标题，遵循阅读顺序。

3.2.2 视觉-语言对齐

在此阶段，我们使用高质量数据对模型进行微调。如表2所示，我们策划了五种类型的数据以覆盖广泛的日常场景：场景图像、场景文本图像、文档、图表和细粒度数据，以及大量高质量的纯文本数据。

对于场景图像，我们包括COCO-2017 [66]、Object365 [56]、SA-1B [57]、ShareGPT4o [53]、ShareGPT4V [63]、DenseFusion [64]和LLaVA-Recap (LCS-558K) [28]。对于Object365、COCO-2017和SA-1B数据集，我们将原始图像注释与InternVL2-26B [31]结合，重新生成详细的图像描述。

场景文本图像包括多样化的中英文场景文本识别数据集。这些数据集，如BLIP3-OCR [58]、COCO-Text [66]、TextOCR [67]、LSVT [68]和ReCTS [69]，提供了现实环境中文本的多样化示例。此外，我们从LAION数据集 [65]中筛选出具有清晰可读文本的图像，形成了一个包含300万张高质量图像的集合，我们称之为Laion-OCR数据集。对于Laion-OCR数据集的描述，我们包括文本内容以及文本位置的相应边界框注释。描述格式如下：

{Caption}. 此图像中的文本为 {Text1}[{Bounding Box 1}], Text2 box /box

至于文档图像，我们包括pdfa-eng-wds [59]、idl-wds [60]、UReader-TR [71]、Vary-600k [74]和SynthDoG [70]。SynthDoG数据集通过生成合成准确的文档图像构建，避免了人工注释错误并确保精确的模型训练。此外，我们添加了手写文档数据集FUNSD [72]和复杂文档数据集DUDE [73]。FUNSD提供了用于手写识别的注释手写样本，而DUDE包括具有复杂布局的文档，增强了模型处理各种文档类型的能力。

对于图表图像，由于图表在内容呈现方面与文档有许多相似之处，我们仅包含有限的图表数据。这些数据来自Chart-to-Text [75]数据集。

对于细粒度图像，我们构建了两种类型的数据：区域描述数据和基于位置的描述数据。区域描述数据描述了图像中特定区域的内容。这些数据是从Ospery-724K [76]、Object365 [56]、ADE20K [77]和MDVP-Data [78]数据集中提取和构建的。这些数据帮助模型在区域级别理解图像的细节。基于位置的描述数据包括带有相应边界框注释的对象的文本描述，主要从Flickr-30K [79]和GranD [80]数据集中构建。这两种类型的数据都增强了模型对图像的理解，支持在复杂场景中更准确的对象定位和识别。

3.2.3 多任务微调

在此阶段，我们使用指令跟随数据进行指令调优，以提升模型解释和遵循自然语言指令的能力。该数据混合设计旨在覆盖广泛的任务，使模型能够学习在不同上下文和模态中根据指令执行各种操作。此外，为了激活模型的视频理解能力，我们引入了通用视频数据。

与视觉-语言对齐阶段类似，我们将图像数据分为六个不同的组：通用、文档、图表/图形、OCR、定位和多图像，如表3所示。每个类别针对视觉理解的特定方面，确保模型能够有效处理与不同类型视觉信息相关的任务。除了这些视觉数据类别外，我们还包含大量纯文本数据，以提高模型处理涉及视觉和文本输入的多样化指令跟随任务的能力。

通用图像数据包括高质量数据集，如LLaVA-SFT-665K [55]和LLaVA-OV-SI [28]，这些数据集作为增强模型场景理解能力的基础资源。我们还清理和过滤了Cambrian-10M [39]数据集。此外，我们从Pixmo数据集 [35]中引入了有意义的数据，包括文档分析、标题生成和计数等任务。这些场景图像涵盖了广泛的任务，包括标题生成、计数、文档理解、数学推理等。

为了构建文档和图表/图形数据集，我们精心挑选了高质量的数据源并进行了质量清理，以确保数据的可靠性。需要注意的是，Docmatix数据集被包含在内，因为它包含多页和多样化的文档，这对于显著增强模型理解和处理长复杂文档结构和内容的能力至关重要。

对于OCR数据，我们考虑了现实场景中的两种常见情况：开发场景和自然场景。对于开发场景，我们使用MultiUI数据集 [89]来激活模型理解和处理用户界面中文本的能力。对于自然场景，我们利用Laion-OCR数据集构建额外的指令调优数据。OCR的指令调优数据由以下五个子任务组成：1) 文本存在检测：确定图像中是否存在特定文本。2) 文本定位：在图像中定位特定文本并输出其边界框。3) 边界框内文本识别：给定一个边界框，识别其中包含的文本。4) 图像间文本比较：给定两张图像，确定指定文本出现在哪张图像中。5) 综合文本检测与识别：检测并识别图像中所有存在的文本。

对于定位图像，我们从RefCOCO [90]和VCR [91]等已建立的数据集中选择数据，这些数据集专注于将视觉元素定位到特定文本描述的任务。

对于多图像场景，我们利用了 Demon-Full [92] 和 Contrastive-Caption [93] 数据集。Demon-Full 数据集特别有价值，因为它包括涉及多图像场景的各种任务，例如比较两幅图像之间的差异，为连环画的最后一幅图像生成标题，完成带有遮挡部分的图像中的缺失文本，确定多幅图像是否属于同一类别等。这些任务帮助模型处理涉及多幅图像的复杂场景，提供对一系列相关图像中视觉信息如何解释的更全面理解。同时，这种多图像数据进一步增强了模型的视频理解能力。

对于本阶段使用的视频数据，我们结合了常用的高质量视频字幕数据集，以及少量的问答数据。此外，我们还补充了来自 VideoLLaMA2 [46] 的高质量数据和内部时间定位数据。内部时间定位数据特别关注视频帧之间的时间关系，使模型能够掌握事件的顺序并理解跨时间的动作流程。这些组合数据源有助于模型获得更强大和细致的视频理解能力。

3.2.4 以视频为中心的微调

以视频为中心的微调阶段旨在将VideoLLaMA3调整为一个视频专家，并通过主要关注大规模和高质量的视频指令跟随来充分释放其视频理解能力。我们首先从多个开源数据集中收集带有一般注释的标题、问题和答案的视频，包括LLaVA-Video [24]、ShareGPT-4o [27]、FineVideo [97]、CinePile [98]、ShareGemini [99]、VideoGPT+ [21]和VideoRefer [100]。这些大约270万条以视频为中心的对话最终形成了一个跨越各种场景和任务的数据集，作为教模型理解视频中复杂动态和静态内容的示例。

此外，我们通过合成特定方面的密集标题和问答进一步扩展数据规模并加强模型。具体来说，按照[24]中提出的流程，我们首先通过光流从Panda-70M [112]数据集中筛选出68K个动态视频，然后使用Qwen2-VL-72B [30]从时间理解、空间理解、对象描述和时间顺序理解等方面为每个视频生成多样化的密集标题和问答。最终，242K个问答对被用于训练。

除了一般的以视频为中心的对话外，我们还引入了流媒体视频理解和时间定位功能，以扩展我们模型的应用场景。对于流媒体视频理解，我们从ActivityNet [101]、YouCook2 [102]和Ego4D [103]获取数据，并按照第3.1节中描述的方式交错组织视频帧和多个时间密集标题，旨在增强理解视频中细粒度事件的能力，并维持流媒体视频中的多轮对话。由于这些视频通常较长，我们根据密集标题的时间间隔将它们切割成最多两分钟的小段，并删除标题过于密集和稀疏的片段。来自VideoLLM-Online [104]的合成流媒体对话也被纳入其中。对于时间定位，我们从包括ActivityNet [101]、YouCook2 [102]、ViTT [105]、QuerYD [106]、HiREST [107]、Charades-STA [108]、Moment-10M [109]和COIN [110]在内的数据集中收集数据，并直接将定位注释转换为文本格式，如“1.0-2.0秒”用于训练。

最后，我们从LLaVA [38]、LLaVA-OneVision [28]、Magpie [94]和Tulu 3 [111]中采用了一定数量的仅图像和仅文本数据，以减轻灾难性遗忘对模型能力的影响。

3.3 实施细节

在这一部分中，我们简要介绍了每个训练阶段的实现细节。对于所有阶段，我们采用余弦学习率调度器。学习率的预热比例设置为0.03。最大令牌长度设置为16384，而视觉令牌的最大长度设置为10240。在视觉编码器适应阶段，当训练VideoLLaMA3-2B时，我们使用SigLIP [54]的预训练权重初始化视觉编码器，并使用Qwen2.5-2B [5]的预训练权重初始化LLM。对于VideoLLaMA3-7B，视觉编码器使用VideoLLaMA3-2B中微调的SigLIP权重初始化，LLM使用Qwen2.5-7B [5]初始化。投影器实现为两层MLP，激活函数为GELU。在此阶段，我们仅训练视觉编码器和投影器，它们的学习率分别设置为和。对于其余阶段，LLM、投影器和视觉编码器的学习率分别设置为。差异帧剪枝器应用于涉及视频数据的多任务微调阶段和以视频为中心的微调阶段。丢弃相似视觉令牌的阈值为0.1。为了限制上下文长度，视频的视觉令牌在视觉编码器后通过双线性插值进行空间下采样，下采样因子为2。图像的视觉令牌仅在以视频为中心的微调阶段进行下采样，以与视频数据对齐。对于加载视频数据，我们首先使用FFmpeg以每秒1帧的速度采样帧。如果总帧数大于某个值（设置为180以适应大多数持续时间少于3分钟的视频），这些帧将进一步均匀采样。

实验与结果

4.1 基于图像的评估

4.1.1 基线

为了全面评估 VideoLLaMA3 的图像性能，我们将其与多种基线进行比较。对于版本的模型，我们选择了几个强大的方法，包括 SmolVLM [37]、InternVL2.5-2B [32] 和 Qwen2VL-2B [30]。对于 7B 模型，有更多的选择。我们选择与 Molmo-7B-D [35]、InternVL2.5-8B [32]、LLaVA-OneVision [28]、NVILA [36] 和 Qwen2VL-8B [30] 进行比较。

4.1.2 基准测试

为了评估 VideoLLaMA3 的图像识别和感知能力，我们在 Image-LLMs 中常用的几个代表性基准上进行了评估。这些基准涵盖了四个维度：文档/图表/场景文本理解、数学推理、多图像理解和常识问答。

文档/图表/场景文本理解。为了评估 VideoLLaMA3 理解图像中各种形式文本的能力，包括文档、图表和场景文本，我们在一系列基准上进行了评估。具体来说，我们使用：1) DocVQA [113] 用于文档理解，评估模型处理和提取文档中文本信息的能力；2) ChartQA [42] 和 InfoVQA [113] 用于图表理解，评估模型解释和推理以图形形式呈现的数据（如条形图和折线图）的能力；3) OCRBench [114] 用于场景文本图像理解，测试模型从现实场景图像中提取和理解文本的能力。

数学推理。VideoLLaMA3 的数学推理能力通过 MathVista [115] 和 MathVision [116] 基准进行评估。这些基准侧重于评估模型对以视觉形式呈现的数学问题进行推理和解决的能力，包括基于文本的数学表达式和需要视觉解释的问题解决任务。

多图像理解。为了评估 VideoLLaMA3 理解和推理多张图像的能力，我们在多个广泛使用的基准上对模型进行了评估，包括 MMMU-Pro [117]、MMMU [118] 和 BLINK [119]。这些基准测试模型在图像之间建立联系、处理多个视觉输入的能力。

通用知识问答。最后，为了评估 VideoLLaMA3 在通用问答中的表现，特别是在现实世界和复杂场景中的表现，我们使用几个具有挑战性的基准进行了评估。这些基准包括：1) RealWorldQA [120]，专注于回答基于日常场景中的真实图像的问题；2) AI2D [121]，评估模型对图表和科学图像进行推理的能力；3) GQA [122]，评估通用问答，重点关注复杂的视觉推理任务；4) MME，包括各种需要深入理解视觉信息的通用知识问题。

4.1.3 评估协议

在基准测试中评估时，我们将温度设置为0.0。最大令牌长度设置为与训练阶段相同。对于涉及多项选择题的基准测试，我们将给出提示，如“直接从给定的选项中选择答案字母。”。对于简答题的基准测试，我们将给出提示，如“用一个单词或短语回答问题。”。我们遵循原始基准测试来计算最终分数，并且我们的评估协议也与其他评估工具包（如Imms-eval [123, 124]和VLMEvalKit [125]）保持一致。

4.1.4 评估结果

我们在之前提到的基准上评估了我们的 VideoLLaMA3 模型。我们 2B 模型的评估结果如表 5 所示。如图所示，与之前的模型相比，VideoLLaMA3 在一系列任务中表现出显著的改进。例如，在 InfoVQA 等 OCR 基准测试中，VideoLLaMA3 的性能得分为 69.4%，而之前的最佳得分为 65.5%。在数学推理任务中，如 MathVista，我们的 2B 模型得分为 59.2%，超过了最先进的方法 7.9%。对于 MMMU-Pro 等多图像基准测试，VideoLLaMA3 比之前表现最好的方法高出 2.6%。在现实世界知识问答任务中，如 RealWorldQA，VideoLLaMA3 以 67.3% 的得分取得了最高性能，而之前的方法为 62.9%。

同样，我们在各种图像基准上评估了我们更大的 7B 模型，结果总结在表 6 中。从表中可以明显看出，VideoLLaMA3 在大多数基准上始终优于之前的模型。值得注意的是，在数学推理任务中，我们的 7B 模型在 MathVision 上比之前的最佳方法高出 6.5%。在图表理解任务中，我们在 InfoVQA 上观察到比之前方法提高了 1.3% 的性能。此外，在 RealWorldQA 等一般推理任务中，VideoLLaMA3 比之前的模型高出 2.0%。

表 6：7B 模型在图像基准上的评估结果。* 表示复现的结果。表示从官方排行榜中检索到的结果。最佳结果以粗体显示，次佳结果以下划线标注。

总体而言，结果证实了 VideoLLaMA3 在广泛的基准测试中提供了一致的进步，展示了其在处理复杂任务（包括 OCR、数学推理和一般知识）中的有效性和多功能性。这些改进使 VideoLLaMA3 成为现实世界应用的强大工具，推动了多模态学习领域的发展。

4.2 基于视频的评估

4.2.1 基线

为了全面评估 VideoLLaMA3 的视频性能，我们将其与多种基线模型进行了比较。与图像评估类似，社区中很少有具有参数大小的可用模型。我们选择了几个强大的基线模型，包括 Apollo-2B [14]、InternVL2.5-2B [32] 和 Qwen2VL-2B [30]。对于 7B 模型，我们将其与 Qwen2VL-8B [30]、InternVL2.5-8B [32] 和 NVILA [36] 等通用模型以及 LLaVA-Video [24]、Apollo-7B [14] 和我们上一代模型 VideoLLaMA2 [46] 等专有模型进行了比较。

4.2.2 基准

VideoLLaMA3 的视频理解能力在三个核心维度上进行了系统评估：一般理解、时间推理和长视频理解。

一般视频理解。我们通过已建立的基准评估了 VideoLLaMA3 的一般视频理解能力：(1) 多选视频问答（MC-VQA）任务，包括 MVBench [26]、VideoMME [126]、EgoSchema [127] 和 Perception-Test [128]。(2) 开放式视频问答（OE-VQA）任务，包括 ActivityNet-QA [129] 和 VCGBench [25]。此评估套件遵循 VideoLLaMA2 [46] 的协议。我们还在 MMVU [130] 上进行了评估，该基准包括上述两种任务类型。

长视频理解。为了进一步检验 VideoLLaMA3 处理和理解长视频内容的能力，我们在三个长视频理解（LVU）基准上评估了性能：（1）MLVU [131]：针对从 3 分钟到超过 2 小时的视频的多样化长视频理解任务，（2）LongVideoBench [132]：在长视频-语言交错输入中针对所引用上下文进行视频推理，以及（3）LVBench [133]：极端长视频理解。

视频时间推理。为了评估 VideoLLaMA3 的时间感知和推理能力，我们在以下任务上进行了评估：（1）时间感知和推理任务，包括 TempCompass [134] 和 NextQA [135]；以及（2）在 Charades-STA [108] 基准上的时间句子定位任务，使用平均交并比（mIoU）指标。

4.2.3 评估协议

在基于视频的基准上评估我们的模型时，我们将最大视觉标记数扩展到，确保每帧对应合理数量的标记，并且总上下文长度在基础 LLM 的最大范围内。最大帧数设置为 180，与训练时相同。为了可重复性，我们在所有基准上保持这些超参数相同，并在解码时禁用采样。

对于一般的多项选择题评估，我们遵循官方设置，使用提供的问题和选项构建指令。添加了类似“直接从给定选项中选择答案的字母”的额外提示来控制模型输出。此外，我们在 MMVU 基准上应用了 CoT 提示，遵循官方评估协议。对于时间定位评估，我们在问题后添加了额外的提示“请以秒为单位输出开始和结束时间戳”。模型响应中的数字通过正则表达式提取，然后视为一个或多个时间间隔。基于此策略，我们最终报告了真实间隔和预测间隔之间的 mIoU。

4.2.4 评估结果。

表7评估了具有2B模型大小的视频理解模型的性能。Vide-oLLAMA3始终表现出具有竞争力的结果，并优于基线方法。在一般视频理解中，VideoLLAMA3在VideoMME w/o sub（59.6%）、VideoMME w/ sub（63.4%）、ActivityNet-QA（58.2%）、PerceptionTest-test（68.0%）、MVBench（65.5%）和MMVU（37.6%）上取得了最高分。在MVBench上，它排名第二（65.5%），略低于InternVL2.5 2B（68.8%）。在长视频理解方面，VideoLLAMA3在所有基准测试中表现最佳：MLVU-dev（65.4%）、LongVideoBench-val（57.1%）和LVBench（40.4%），展示了其处理长视频内容的卓越能力。在时间推理方面，VideoLLAMA3在TempCompass（63.4%）、NextQA（81.1%）和Charades-STA（55.5%）上领先。与Apollo-2B、InternVL2.5-2B和Qwen2-VL-2B相比，VideoLLAMA3不仅在大多数基准测试中占据首位，而且在需要全面和长期视频理解的任务中表现出持续的优势，强化了其在多样化视频相关任务中的强大能力。

至于VideoLLaMA3-7B模型，结果如表8所示。在7B模型大小下，VideoLLaMA3-7B仍然表现出具有竞争力的结果。在一般视频理解方面，它在7个基准测试中的5个上领先，包括VideoMME w/o sub、VideoMME w/ sub、PerceptionTest-test和ActivityNet-QA。在MVBench上，它也取得了与InternVL2.5-8B相当的结果。在长视频理解方面，VideoLLaMA3-7B在MLVU-dev上得分最高，并在LongVideoBench-val和LVBench上取得了第二好的成绩。

4.3 案例研究

图表图像理解。在图6中，我们展示了两个图表图像理解的案例。在第一个案例中，VideoLLaMA3可以分析股票趋势并提供一些合理的投资建议。在第二个案例中，模型可以比较MLLMs的性能，并了解参数数量与性能之间的权衡。

OCR和文档理解。图7展示了两个带有文本的图像案例。在第一个例子中，模型可以成功解析设计图像中的文字，并提供一些改进海报的建议。在第二个图像中，我们要求VideoLLaMA3对给定的文档图像执行OCR任务。VideoLLaMA3可以成功识别文档图像中的文字，展示了其在理解图像中密集信息方面的强大性能。

多图像理解。图8给出了三个多图像理解任务的例子。在第一个例子中，VideoLLaMA3可以区分两种鸟类的差异。第二个例子展示了VideoLLaMA3能够从长文档（甚至包含多个图像）中定位答案，而不仅仅是解析文字。这是一种超越OCR的高级能力。而在最后一个例子中，VideoLLaMA3可以理解连环画中的故事情节。

通用图像和视频理解。图9展示了VideoLLaMA3在理解通用图像方面的能力，包括视觉问答任务、利用知识回答问题以及提供带字幕的视频。同样在图10中，我们给出了五个视频理解的案例。VideoLLaMA3能够通过时间维度理解视频内容，而不仅仅依赖于静态内容的推断。

长视频理解、时间定位和视频-图像联合理解。在图11中，我们展示了几个涉及更复杂视频任务的案例，包括长视频定位、视频时间定位和视频-图像联合理解。我们的VideoLLaMA3模型展示了执行复杂长视频问答任务的能力。对于需要时间定位的任务，我们的模型能够准确识别指定的时间。此外，对于视频-图像联合理解，模型有效地捕捉了视频和图像之间的关系，使其能够处理更复杂的任务。

4.4 消融研究

在多模态大型语言模型（MLLMs）中，预训练的视觉编码器的嵌入需要与大型语言模型的嵌入对齐。因此，视觉编码器的表示性能对MLLMs的最终性能至关重要。在本研究中，我们探讨了不同视觉编码器的影响。具体来说，我们比较了三种基于Transformer的预训练视觉编码器：CLIP [136]、DFN [137] 和 SigLIP [54]。由于计算限制，我们在整个数据集的子集上进行研究。此外，为了研究原始预训练权重的性能，我们固定了视觉编码器的权重，并将视觉输入保持为固定分辨率，这与视觉编码器的预训练分辨率相同（CLIP为336×336，DFN为378×378，SigLIP为384×384）。训练分为三个阶段：1）使用LLaVA-Pretrain-558K [55] 训练投影器；2）使用我们重新标注的COYO数据微调所有参数；3）使用LLaVA-SFT-665K [38] 进行监督微调（SFT）。比较结果如表9所示。SigLIP在涉及文本的细粒度理解任务中表现优于其他两种视觉编码器。基于此消融研究，我们选择预训练的SigLIP作为基础视觉编码器，并将其调整为接受动态分辨率输入。

总结

VideoLLaMA3 的引入标志着多模态大模型（MLLMs）领域的重要进展，特别是在弥合图像与视频理解之间的差距方面。通过采用以视觉为中心的训练范式，VideoLLaMA3 利用以图像为中心的数据的鲁棒性来增强视频理解，有效缓解了与时间动态和视频数据复杂性相关的挑战。这种方法强调了高质量图像-文本数据集的推断价值，这些数据集比视频-文本数据集更容易获得和整理。VideoLLaMA3 在包括 VideoMME、PerceptionTest、MLVU、DocVQA 和 MathVista 在内的多样化基准测试中的成功，展示了其在各种多模态任务中的多功能性和高效性。