摘要:受DeepSeek-R1通过基于规则的强化学习(RL)激发推理能力的成功启发,我们推出了Video-R1,这是首次尝试在多模态大语言模型(MLLMs)中系统地探索R1范式,以激发视频推理能力。然而,直接将带有GRPO算法的强化学习训练应用于视频推理面临两大主要挑战:(i)视频推理缺乏时序建模;(ii)高质量视频推理数据匮乏。为解决这些问题,我们首先提出了T-GRPO算法,该算法鼓励模型利用视频中的时序信息进行推理。此外,我们不再仅依赖视频数据,而是将高质量图像推理数据纳入训练过程。我们构建了两个数据集:Video-R1-COT-165k用于监督微调(SFT)冷启动,Video-R1-260k用于强化学习训练,两者均包含图像和视频数据。实验结果表明,Video-R1在视频推理基准测试(如VideoMMMU和VSI-Bench)以及通用视频基准测试(包括MVBench和TempCompass等)中均取得了显著提升。值得注意的是,Video-R1-7B在视频空间推理基准测试VSI-Bench上达到了35.8%的准确率,超越了商业专有模型GPT-4o。所有代码、模型和数据均已公开发布。Huggingface链接:Paper pag,论文链接:2503.21776
研究背景和目的
研究背景
随着人工智能技术的快速发展,多模态大语言模型(MLLMs)在视频理解领域的应用日益广泛。视频理解是MLLMs的一项关键能力,它使得模型能够解释和推理动态视觉内容。然而,尽管近年来在视频理解方面取得了一些进展,但大多数现有工作仍主要聚焦于视频感知任务,如对象检测、动作识别等,而在视频推理能力的发展上仍显不足。
视频推理能力对于MLLMs来说至关重要,因为它要求模型能够在理解视频内容的基础上,进行更深层次的逻辑思考和推理。这种能力在多个领域都有广泛的应用前景,如智能监控、自动驾驶、医疗影像分析等。然而,由于视频数据的复杂性和多样性,以及视频推理任务的高难度,现有的MLLMs在视频推理方面仍存在诸多挑战。
受DeepSeek-R1在文本领域通过基于规则的强化学习(RL)成功激发推理能力的启发,研究者们开始探索将RL应用于MLLMs的视频推理任务中。然而,直接将现有的RL训练算法(如GRPO)应用于视频推理存在两大主要挑战:一是视频推理缺乏时序建模,导致模型可能采取捷径,仅依赖单帧或快照进行推理,而非基于时序信息;二是高质量视频推理数据的匮乏,使得模型难以在训练过程中接触到多样化和具有挑战性的推理模式。
研究目的
针对上述挑战,本研究旨在通过提出新的算法和数据策略,系统地探索在多模态大语言模型中激发视频推理能力的R1范式。具体目标包括:
- 提出T-GRPO算法:针对视频推理中时序建模的不足,本研究提出了T-GRPO算法,该算法通过对比模型在有序和随机打乱帧序列上的推理性能,鼓励模型利用视频中的时序信息进行推理。
- 构建高质量数据集:为了解决高质量视频推理数据匮乏的问题,本研究构建了两个数据集:Video-R1-COT-165k用于监督微调(SFT)冷启动,Video-R1-260k用于强化学习训练。这两个数据集均包含图像和视频数据,以提供多样化的推理训练样本。
- 提升视频推理能力:通过应用T-GRPO算法和高质量数据集,本研究旨在显著提升MLLMs在视频推理任务上的表现,使其能够处理更复杂和多样化的视频推理任务。
研究方法
数据集构建
为了支持Video-R1模型的训练,本研究构建了两个数据集:
- Video-R1-COT-165k:该数据集用于监督微调(SFT)冷启动。它从多个公开数据集中收集并仔细筛选了样本,涵盖了数学、空间逻辑、专业知识等多个领域。这些数据样本用于教授模型广泛的推理技能,并帮助模型在静态上下文中发展出通用的推理能力。此外,该数据集还包含了链式思考(CoT)注释,以便于模型的监督微调。
- Video-R1-260k:该数据集用于强化学习训练。它同样从多个公开数据集中收集样本,并仔细平衡了每个子集的比例。该数据集包含一般视频数据(涵盖日常场景,旨在建立时序理解和推理能力)、一般图像数据(用于提供基本的视觉理解)、图表数据(关注数据解释和定量逻辑)、OCR数据(促进需要识别和解释嵌入文本内容的推理任务)、数学数据(基于图像的数学推理问题)、知识数据(视觉常识和多学科推理任务)以及空间数据(需要理解空间信息进行推理的任务)。
T-GRPO算法
为了解决现有RL算法在视频推理中缺乏时序建模的问题,本研究提出了T-GRPO算法。该算法的核心思想是比较模型在有序和随机打乱帧序列上的推理性能,并据此分配奖励。具体来说,对于每个输入问题,T-GRPO算法使用有序和打乱帧序列分别生成两组响应,并计算每组响应中正确答案的比例。如果有序序列组的正确比例超过打乱序列组的正确比例乘以一个阈值(μ),则模型将获得一个正的时序奖励(r_t)。这个对比性设计鼓励模型在视频呈现为正确时序顺序时表现更好,而不是依赖于单帧或快照的捷径。
训练策略
本研究的训练过程分为两个阶段:监督微调(SFT)和强化学习(RL)训练。在SFT阶段,使用Video-R1-COT-165k数据集对基础MLLM模型(Qwen2.5-VL-7B)进行微调,以赋予模型基本的推理能力。在RL训练阶段,使用Video-R1-260k数据集和提出的T-GRPO算法对SFT后的模型进行进一步训练,以激发模型更强大、更泛化的视频推理能力。此外,为了进一步提高推理质量,本研究还引入了一个基于长度的奖励机制,以调节模型输出的长度,平衡深度推理和过度思考。
研究结果
主要发现
实验结果表明,Video-R1模型在多个视频推理基准测试(如VideoMMMU、VSI-Bench)和通用视频基准测试(如MVBench、TempCompass)上均取得了显著提升。具体来说:
- Video-R1的卓越性能:在大多数基准测试中,Video-R1模型显著优于之前的模型。特别是在视频空间推理基准测试VSI-Bench上,Video-R1-7B模型达到了35.8%的准确率,超越了商业专有模型GPT-4o,同时仅使用了32帧和70亿参数。这一结果强调了显式推理能力在解决视频任务中的重要性,并验证了强化学习在视频任务中的有效性。
- SFT与RL的比较:研究发现,SFT模型(Qwen2.5-VL-7B-SFT)在不同基准测试上的性能提升并不一致,有时甚至在某些基准测试上略有下降,这可能是由于过拟合或在未见场景中的泛化能力有限。相比之下,经过仅1000步强化学习的Video-R1模型在所有基准测试上均实现了显著的性能提升,特别是在需要深度推理的设置中。这充分展示了本研究提出的RL框架的强大性,并强调了强化学习在解锁泛化视频推理能力方面的重要性。
- 更多帧带来更好的推理:当将输入帧数从16增加到32时,观察到几乎所有基准测试上的性能都有所提升。这表明更长的上下文和更丰富的时序信息对模型的推理性能有积极影响。特别是在需要更长时间序列进行推断的基准测试(如VideoMMMU和VideoMME)中,性能提升尤为显著。这些结果表明,开发能够理解和推理更长视频输入的模型是未来研究的一个有前景且必要的方向。
消融研究
为了更好地理解本研究中各个组件的贡献,进行了消融研究,评估了两个变体模型:
- Video-R1-7B-wo-image:在训练过程中移除了所有基于图像的数据,仅依赖视频数据。
- Video-R1-7B-wo-temporal:将提出的T-GRPO算法替换为原始的GRPO方法,后者缺乏显式的时序推理建模。
消融研究结果表明,两个变体模型在所有基准测试上的性能均低于完整的Video-R1-7B模型。特别是移除图像数据后,模型在视频推理和通用基准测试上的性能均出现了显著下降,这表明基于图像的数据在引导通用推理能力和提供多样化监督信号方面发挥着关键作用。同样地,没有通过T-GRPO进行时序感知训练后,模型在利用时序线索进行推理方面的能力较弱,导致在基准测试上的性能较差。这些消融研究验证了本研究提出的方法的有效性。
训练曲线
训练曲线展示了Video-R1模型在强化学习过程中的动态变化。通过跟踪准确率奖励、时序奖励r_t和响应长度三个关键指标,发现:
- 准确率奖励:整体上呈现出上升趋势,表明模型在强化学习过程中不断提高其产生正确答案的能力。这反映了本研究设计的奖励机制在引导模型向更好推理结果方面的有效性。
- 时序奖励r_t:也呈现出稳步增加的趋势。这表明模型在训练过程中逐渐采用了更多基于时序的推理策略,因为T-GRPO鼓励模型对有序输入表现更好。这一上升趋势验证了T-GRPO在将时序意识融入模型推理过程中的作用。
- 响应长度:在强化学习训练初期出现下降,随后逐渐增加并最终稳定在一个固定长度附近。这反映了模型的学习过渡过程:模型最初抛弃了之前可能次优的推理风格(来自监督微调),进入了一个短暂的探索阶段并产生较短的输出,最终收敛到一种新的、稳定的推理策略上,该策略在深度和简洁性之间取得了平衡。这一最终稳定状态表明模型已经内化了既有效又能最大化奖励的一致推理模式。
研究局限
尽管本研究在激发MLLMs的视频推理能力方面取得了显著进展,但仍存在一些局限性:
- 帧数限制:目前,Video-R1模型是在最多16帧的视频上进行训练的,这可能限制了其处理长范围时序依赖性的能力。在未来的工作中,需要开发更有效的训练和推理策略,以支持对更长视频的处理,从而实现更全面的时序推理。
- 时序建模方法:虽然T-GRPO算法引入了有效的时序感知推理,但由于对比性评估和奖励计算带来了额外的计算开销。这可以通过推理加速框架(如vLLM)或通过探索更高效的时序建模机制来缓解。
- 动态响应长度控制:目前的长度控制机制在一个预定义范围内应用固定奖励,而不考虑每个样本的复杂性。未来的工作可以探索动态长度控制策略,使模型能够根据问题的难度或类型自适应地确定适当的响应长度。
- 强化学习规模:由于计算资源的限制,目前的强化学习阶段仅训练了1000步。尽管取得了有前景的结果,但增加强化学习的训练规模将允许模型更好地探索最优推理轨迹,并进一步增强其泛化能力。
- 图像到视频的知识迁移:目前,本研究以直接混合的方式将基于图像的数据纳入训练集。未来的研究可以设计更原则性的方法来更有效地利用图像数据,从图像到视频更有效地迁移推理能力。
未来研究方向
针对上述研究局限,未来的研究可以从以下几个方面展开:
- 扩展视频帧数:开发能够处理更长视频序列的模型,以支持更全面的时序推理。这可能需要新的模型架构、训练策略和推理算法。
- 优化时序建模方法:探索更高效的时序建模机制,以减少计算开销并提高模型性能。这可能包括新的算法设计、模型架构或计算加速技术。
- 动态响应长度控制:研究动态长度控制策略,使模型能够根据问题的复杂性或类型自适应地调整输出长度。这可能需要新的奖励机制或优化目标。
- 大规模强化学习:增加强化学习的训练规模,以允许模型更好地探索最优推理轨迹。这可能需要更多的计算资源或更高效的训练算法。
- 精细化图像到视频的知识迁移:设计更原则性的方法来利用图像数据,更有效地从图像到视频迁移推理能力。这可能包括新的数据表示、预训练策略或迁移学习方法。
此外,未来的研究还可以探索将Video-R1模型应用于更多实际场景,如智能监控、自动驾驶、医疗影像分析等,以进一步验证其有效性和泛化能力。同时,随着多模态大语言模型技术的不断发展,未来的研究还可以探索将Video-R1模型与其他先进技术(如自监督学习、知识蒸馏等)相结合,以进一步提升其视频推理能力。