小红书×华东师大开源Vision-R1 | 自进化CoT数据集+渐进抑制训练+GRPO，实现零样本SOTA

最新推荐文章于 2025-05-19 01:03:55 发布

小天才学习机打游戏

最新推荐文章于 2025-05-19 01:03:55 发布

阅读量1k

点赞数 13

文章标签：人工智能机器学习深度学习 apache 知识图谱

本文链接：https://blog.csdn.net/m0_59164520/article/details/147401531

版权

导读

DeepSeek-R1-Zero成功展示了通过强化学习（RL）在LLMs中纯粹通过推理能力的出现。受此突破的启发，作者探索了如何利用RL来增强MLLLMs的推理能力。然而，由于缺乏大量高质量的多模态推理数据，直接使用RL进行训练难以激活MLLLMs中的复杂推理能力，如质疑和反思。

为了解决这个问题，作者提出了推理MLLLM，VisionR1，以提升多模态推理能力。具体来说，作者首先通过利用现有的MLLLM和DeepSeek-R1，通过模态桥接和数据筛选构建了一个高质量的多模态CoT数据集，不包含人工标注，获得了200K的多模态CoT数据集，Vision-R1-cold数据集。它作为Vision-R1的冷启动初始化数据。为了缓解冷启动后过度思考带来的优化挑战，作者提出了渐进式思维抑制训练（PTST）策略，并使用带有硬格式化结果奖励函数的组相对策略优化（GRPO）来逐步完善模型在10K多模态数学数据集上学习正确和复杂推理过程的能力。

全面实验表明，Vision-R1在各种多模态数学推理基准测试中实现了平均的提升。Vision-R1-7B在广泛使用的Math Vista基准测试上达到了的准确率，这仅比领先的推理模型OpenAI O1低。

数据集和代码将在以下链接发布：https://github.com/Osilly/Vision-R1

1. 引言

提升大语言模型（LLMs）的复杂推理能力仍然是人工智能（AI）领域最具挑战性的问题之一，这被广泛认为是实现通用人工智能（AGI）的关键途径[1, 2]。传统的推理范式通常依赖于简单的“直接预测”方法来生成简洁的最终答案，而不涉及明确的、结构化的中间推理步骤，这在复杂的推理任务上往往表现出次优的性能[1]。OpenAI O1 [1]是第一个通过使用复杂的思维链（CoT）进行训练而具有强大推理能力的LLM，它在性能上显著超越了之前的LLMs。同时，已经探索了各种方法[3-14]来生成高质量的复杂CoT推理，并通过优化推理路径进一步推进了该领域的发展。

在多模态大语言模型（MLLMs）领域，近期的研究[15, 16]也探讨了CoT推理的应用。这些方法假设MLLMs缺乏结构化的推理过程，在需要逻辑推理的任务上表现不佳。为了提高MLLMs的推理能力，一些方法[15, 17]试图手动构建包含步骤级推理过程的语料库，并应用监督微调（SFT）对MLLMs的输出进行重新格式化。然而，这种手动设计的“格式化推理MLLM”往往导致“伪CoT”推理，缺乏在人类思维中常见的基本认知过程，如质疑、反思和检查（见图2，“伪CoT”的数据示例和复杂的CoT）。这一局限性阻碍了它们在复杂视觉推理任务中的应用。因此，生成类似人类的高质量、复杂CoT推理数据对于训练MLLMs至关重要，使其能够更有效地处理复杂的多模态推理任务。

近期，DeepSeek-R1 [2] 成功地将强化学习（RL）应用于诱导大语言模型（LLMs）中复杂认知推理能力的自涌现。这引发了作者重新思考：能否利用RL来激励多语言大语言模型（MLLLMs）的推理能力？为了回答这个问题，作者首先遵循DeepSeek-R1-Zero范式 [2]，直接使用RL来提升MLLLMs的推理能力。遗憾的是，这种直接的RL训练面临着挑战，因为它在没有大规模、高质量的多模态数据和长时间训练的情况下，难以有效引导MLLLMs生成复杂的CoT推理（见图1（E）和（F））。

为解决上述问题，作者提出了Vision-R1，这是一种集成了冷启动初始化与RL训练的推理MLLM。首先，作者构建了一个高质量的多模态CoT数据集，无需手动标注。具体来说，作者利用现有的MLLM从多模态图像-文本对中生成“PseudoCoT”推理文本。这种“Pseudo-CoT”推理明确地结合了视觉描述和结构化的步骤级推理过程，以文本格式揭示了更详细的视觉信息。接下来，作者将丰富的推理文本反馈给MLLM，以获得包含必要视觉信息的描述。这个过程有效地实现了“模态桥接”，将视觉信息转换为语言。随后，这些文本描述被传递给仅文本的推理LLM DeepSeek-R1，以提取高质量的CoT推理。最后，通过基于规则的数据过滤对数据集进行精炼，最终获得包含20万多个多模态类似人类的复杂CoT推理样本的数据集，该数据集作为Vision-R1的冷启动初始化数据集。

遵循DeepSeek-R1训练流程，作者需要在10K多模态数学数据集上应用组相对策略优化（GRPO）[2, 18]，以增强模型的推理能力。然而，如图1（A）和（D）所示，作者在冷启动初始化的MLLM中观察到过度思考现象，即正确的推理过程往往集中在较短的CoT推理序列上。这个问题导致了后续RL训练中的优化问题。为了应对这一挑战，作者提出了与GRPO结合的渐进式思考抑制训练（PTST），该训练方法包含一个硬格式化结果奖励函数。这种方法鼓励Vision-R1在RL过程的早期压缩CoT推理步骤，内部化正确的推理方法，同时随着时间的推移逐渐延长其推理持续时间，以有效解决更复杂的问题。

作者的主要贡献可以概括如下：

作者探讨了如何利用强化学习（RL）来提升多语言语言模型（MLLMs）的性能，并介绍了Vision-R1，这是一种利用冷启动初始化和RL训练来激励推理能力的推理型MLLM。据作者所知，这是第一个研究利用RL增强MLLM推理能力并分析直接RL训练与冷启动初始化结合训练方法之间差异的工作。作者相信，作者的探索可以为社区带来新的洞见。
构建了一个高质量的200K多模态CoT数据集，无需人工标注，作为MLLMs的冷启动初始化数据。作者利用提出的PTST方法，结合硬格式化结果奖励函数对GRPO进行优化，有效解决了RL训练中的过度思考优化问题。PTST使Vision-R1能够逐步发展更复杂的推理过程，同时有效引导MLLMs提升推理能力。
大量实验证明了Vision-R1强大的推理能力。值得注意的是，尽管Vision-R1仅有70亿参数，但在数学推理任务中，其性能与超过700亿参数的当前最先进（SoTA）的多语言语言模型（MLLMs）相当。

2. 相关工作

2.1 大语言模型推理

研究行人发现，使大语言模型（LLM）能够模拟人类思维过程并执行逐步推理可以显著提高其在推理任务上的表现[1]，因此大量工作致力于探索LLM推理方法。这些方法通常依赖于人类设计来格式化LLM的输出，以遵循特定的步骤，例如思维链（CoT） Prompt 方法[3]、基于计划的树状思维和图状思维方法[4, 5]、基于过程奖励模型[6-9]、蒙特卡洛树搜索（MCTS）和束搜索[10-12]，以及构建复杂的监督微调（SFT）数据集[13, 14]。

近期的一项进展，DeepSeek-R1 [2]，表明通过应用大规模强化学习（RL）以及格式和结果仅奖励函数，可以引导大语言模型（LLMs）向自我涌现的思维过程发展，产生类似人类的复杂CoT推理，并在复杂推理任务中实现显著优势。这种方法在大语言模型推理领域展现出巨大潜力，然而，将其应用于多语言大语言模型（MLLLMs）仍是一个待研究的开放领域。

2.2 多模态大语言模型推理

MLLMs通常将来自其他模态的输入映射到文本模态，然后由LLMs进行处理。这种方法已被证明在一系列视觉理解任务中表现出优异的性能[19-24]。受到LLM推理进展的启发，许多研究也寻求增强MLLMs的推理能力。例如，已经尝试采用CoT Prompt [25-27]和构建包含层级推理的SFT数据集[15, 16]。然而，这些方法生成的CoT往往缺乏自然的人类认知过程，如提问、反思和检查，这限制了它们在解决复杂推理任务中的有效性。相比之下，Vision-R1通过结合冷启动初始化和RL训练来获得高质量的复杂CoT推理能力，从而在处理具有挑战性的视觉推理任务方面表现出色。

3. 方法

3.1. 仅通过强化学习能否激励多语言大语言模型（MLLLMs）的推理能力？

受DeepSeek-R1-Zero [2]的启发，作者旨在直接使用强化学习（RL）来引导模型实现自我思考和复杂推理能力的涌现。为此，作者收集了一个包含10K开源数学问题的数据集用于RL训练。具体来说，作者遵循了DeepSeek-R1-Zero的流程，使用GRPO [18]训练了一个基础的多语言语言模型（MLLM），其输出格式由以下系统 Prompt 所规定的约束来指导：

·用户与助手之间的对话。首先思考推理过程…向用户提供答案。推理过程和答案分别用和标签括起来。

对于奖励函数，作者同时使用了格式和结果奖励：

格式化奖励函数：模型的输出必须遵循“<think ”格式。
结果奖励函数：模型生成的最终结果必须与真实值一致。

然后，作者将格式和结果奖励比设置为1:1。经过纯强化学习训练的模型被命名为VisionR1-Zero。不幸的是，如图1（D）和（E）所示，直接将强化学习应用于训练多语言语言模型（MLLM）在激发MLLM的推理能力和产生长篇、复杂的CoT方面证明具有挑战性，限制了模型的推理能力。此外，作者观察到，随着训练在较长时间内进行，模型逐渐学会使用更长的推理过程来解决难题，但这导致了显著的性能下降。因此，作者声称，直接使用强化学习来激励MLLM解决复杂推理问题的推理能力仍然是一个具有挑战性的任务，尤其是在数据质量、数量以及计算资源受限的情况下。

3.2 视觉-R1概述

在作者上述的探索中，作者观察到仅采用强化学习（RL）的方法难以引导多模态语言大模型（MLLM）生成类似人类的复杂共通主题（CoT）。因此，作者探索了一种替代策略，并引入了推理型MLLM，即Vision-R1。该方法从使用多模态CoT数据集进行冷启动开始，最初教导基础模型以“类似人类”的方式进行推理。随后，作者将强化学习应用于冷启动初始化的模型Vision-R1-CI，以引导其采用正确的推理过程，从而激励最终模型Vision-R1的推理能力。

在以下章节中，作者首先在第3.3.1节描述了创建高质量、无需人工标注的多模态CoT数据集的方法，以及第3.3.2节中提到的后冷启动MLLMs面临的过度思考优化问题。然后，作者讨论了针对过度思考优化问题提出的RL训练方法——渐进式思考抑制训练（PTST），在第3.4节中。

3.3 冷启动初始化

3.3.1. 通过模态桥接获取高质量的多模态CoT数据

许多现有工作[15, 17]试图构建多模态推理数据集以增强多语言大语言模型（MLLMs）的推理能力。先前的工作通常收集了CoT数据，但这些数据往往缺乏提问和自我反思等自然认知过程。这些数据集通常基于人类启发式方法逐步构建。然而，作者的目标是收集一个包含复杂认知过程的多模态CoT数据集，以教导Vision-R1以类似人类、自然的方式进行推理。此外，DeepSeek-R1已证明能够生成具有自然认知过程的CoT，并已证明其具有较强的推理能力。通过使用它生成的优质CoT数据，这些数据融合了类似人类的认知自我反思过程，作者可以训练MLLMs以增强其推理能力。然而，作为一个“纯文本”LLM，DeepSeek-R1在有效处理多模态输入以产生高质量CoT方面存在困难。

为了克服这些限制，作者利用现有的多模态语言模型（MLLMs）与DeepSeek-R1结合，并提出了一种名为模态桥接（Modality Bridging）的方法，通过间接将多模态信息转换为文本信息，从而捕捉DeepSeek-R1的复杂认知过程。如图2所示的数据生成流程，首先，作者遵循先前的工作[15, 17]，将图像-问题-答案对和 Prompt 输入到MLLM中，生成一个包含图像描述和推理过程的“伪CoT”。随后，作者将图像-问题对与“伪CoT”和 Prompt 连接起来，然后输入到MLLM中，以获得详细的图像描述。以下为 Prompt 模板：

给定一张图像、一个问题：{问题}和思考过程：{思考过程}，提供包含回答问题所需所有必要细节的详细描述…

生成“伪CoT”的过程相较于纯图像描述，明确地暴露了更多用于文本推理的视觉细节。这有助于MLLM生成更详细的描述，从而在将原始的多模态信息转换为文本信息的过程中最小化信息损失（见图3）。

在此阶段，作者巧妙地将图像信息与文本信息相连接，并将其输入到DeepSeek-R1中，以获得高质量的CoT过程。然后，作者从生成的多模态CoT数据中保留推理过程，确保最终答案与真实情况一致，并应用基于规则的数据过滤来移除逻辑不一致的样本，并替换一些词语以保持语义连贯性。

最后，作者将DeepSeek-R1从上述过程中生成的纯文本CoT数据与相应的图像配对，整合成多模态CoT数据，命名为Vision-R1-cold数据集。该数据集用于Vision-R1的冷启动初始化。通过这种方式获取CoT数据，其过程紧密模拟人类认知行为，推理过程表现出自然且逻辑的思考。

3.3.2. 过度思考优化问题

在获取多模态CoT数据集后，作者对预训练的MLLM（如Qwen2.5-VL-7BInstruct [31]）进行了微调，将其作为冷启动初始化的基础MLLM。经过冷启动初始化后的MLLM命名为Vision-R1-CI。在这一阶段，基础MLLM已经从DeepSeek-R1学习了复杂的推理模式，然而，这导致了过度思考优化问题，即VisionR1-CI会在某些问题上进行长时间的思考过程，而正确的推理过程通常集中在较短的认知链中。

如图1（D）和（E）所示，这种过度错误推理的倾向显著增加了后续强化学习（RL）训练的复杂性。例如，当在VisionR1-CI的RL训练中允许的思考长度直接扩展到16K时，模型倾向于生成更长的答案以满足复杂推理的需求。然而，这种错误推理并没有导致性能提升，因此在激励多语言大语言模型（MLLMs）的推理能力方面带来了挑战。因此，在早期引导模型学习正确的思考方式对于MLLMs的推理性能至关重要。

3.4 逐步思维抑制训练

受上述现象的启发，作者提出了渐进式思维抑制训练（PTST）算法，旨在RL训练的早期阶段对Vision-R1的推理长度进行抑制，同时引导其走向正确的推理过程。随着训练的进行，作者逐渐放宽这些约束，允许Vision-R1自主学习利用更长的CoT来解决越来越复杂的问题，从而增强其推理能力。具体来说，作者实现了具有硬格式结果奖励的组相对策略优化（GRPO）以促进模型的自学习。考虑标准的GRPO方法，它从策略模型中为每个问题采样一组生成输出集。然后GRPO最大化以下目标并优化模型。

其中，和分别是 PPO 的剪辑超参数和控制 Kullback-Leibler (KL) 惩罚系数的系数 [18, 37]。在训练过程中，作者将设置为 0.2，设置为。是使用组奖励计算出的优势。是 KL 散度。

如图4所示，在作者提出的PTST中，作者用表示训练阶段的总数，每个阶段都有其自身的采样计数和序列长度限制。第阶段的输出空间表示为。第阶段的训练目标可以进一步根据公式1重新表述为：

其中，表示训练阶段中第个样本的优势估计，而表示输出长度限制为的策略模型。作者采用硬格式化结果奖励函数作为 GRPO 的奖励机制，即当格式要求与最终答案的正确性同时满足时，模型才获得奖励分数；否则，它获得分数。此外，作者不对系统 Prompt 施加约束，因为 Vision-R1-CI 在冷启动初始化阶段已经获得了强大的格式化能力。

通过应用PTST，作者在早期训练阶段压缩模型的思维长度以引导正确推理，并在后期阶段逐渐放松这些约束。如图1所示，这种渐进策略使得Vision-R1能够生成更复杂的CoT，并显著增强其推理能力。值得注意的是，在实践中，作者观察到Vision-R1在第二个训练阶段结束时取得了具有竞争力的性能，这促使作者将其选为最终阶段，即作者将参数设置为，，。此外，与直接使用固定的16K CoT长度（Vision-R1-Long）进行训练相比，作者提出的PTST方法在第三阶段可以达到相当水平的CoT复杂性，同时显著提高推理性能（见图1（D）和（E））。

4. 实验

4.1 实验设置

数据集和基准。为了获取冷启动数据集，作者使用了多模态视觉问答（VQA）数据集，LLaVA-CoT数据集（100K）[17]和Mulberry数据集（260K）[15]，以进行Vision-R1-cold（200K）。在GRPO过程中，作者将WeMath [39]、MathVision [40]、Polymath [41]、SceMQA [42]、Geometry3K [43]的数学数据集混合作为作者的RL训练数据。数据总量约为10K。

为了评估Vision-R1的推理能力，作者选择了三个广泛使用的多模态数学基准：MM-Math [44]、MathVista [45]和MathVerse [46]。这些基准涵盖了各种数学领域，能够全面评估多模态语言模型（MLLMs）的数学推理能力。此外，作者还选择了四个通用多模态基准来展示Vision-R1的一般能力：MMStar [47]、ChartQA [48]、MME [49]和HallBench [50]。这些通用基准用于评估作者提出的Vision-R1-cold数据集的数据质量。

实现细节。在Vision-R1-cold数据集的准备过程中，作者使用了128块NVIDIA H800 80G GPU来部署开源的MLLM Qwen-2.5-VL-72B [31] 和推理LLM DeepSeek-R1 [2]。然后，作者使用Qwen-2.5-VL-72B和DeepSeek-R1对VQA数据集进行处理，整个过程大约需要2天时间。

对于Vision-R1-7B的冷启动初始化，作者采用Qwen-2.5-VL-7B-Instruct [31]作为基础模型，并通过监督微调（SFT）在32个NVIDIA H800 80G GPU上训练2个epoch，耗时约10小时，使用Llama-Factory框架 [51]。冷启动初始化后，作者得到冷启动后的模型，即Vision-R1-CI-7B，随后在收集的10K数学数据集上使用GRPO在64个NVIDIA H800 80G GPU上，在Verl训练框架 [52, 53] 中训练约2天，遵循两阶段PTST方法（注意作者未使用第三阶段预训练权重），即设置为2。

本文中所有模型总结如下：

Vision-R1-Zero：这代表了一种 Baseline 方法，其中直接将强化学习（RL）应用于基础多语言语言模型（MLLM），而不进行冷启动初始化。
Vision-R1-CI：基于Vision-R1-cold数据集对基础MLLM进行冷启动初始化，得到此模型。
Vision-R1-Long：该变体使用最大生成长度为16K个token进行训练，每次从冷启动的Vision-R1-CI中生成四个样本作为输入，随后进行300个训练步骤。
Vision-R1：该模型遵循渐进式思维抑制训练（PTST）策略，采用两阶段的强化学习（RL）训练过程：- 阶段1：模型从Vision-R1-CI开始训练，进行100步，生成8K个token的限制，每个输入采样16个样本。阶段2：继续训练100步，最大生成长度为8K个token，每个输入采样8个样本。

第二阶段结束时的最终模型预训练权重为最终Vision-R1模型，因为该阶段在推理长度和整体性能之间达到了最佳平衡。

此外，Vision-R1可以进一步扩展到第三个训练阶段，采用与Vision-R1-Long相同的参数设置，并额外进行100个训练步骤。然而，如图1所示，进一步的训练并没有带来显著的性能提升，但确实产生了更复杂的推理过程。

为了评估Vision-R1-cold数据集的质量，作者将冷启动初始化相同的训练超参数应用于Llama-3.2-V-Instruct [38] 进行微调，从而得到另一个后冷启动的MLLM，即Vision-R1-LlamaV-CI，它也可以用于后续的RL训练。

4.2 主要结果

数学推理。如表1所示，作者提出的VisionR1-7B在多个数学推理基准测试中取得了具有竞争力的结果，即便与参数量是Vision-R1-7B超过10倍的SoTA模型相比。例如，在MathVista基准测试中，Vision-R1-7B取得了73.5%的分数，仅比最广为人知的推理模型OpenAI O1低0.4%。此外，在Math Vista的复杂数学推理子任务中，即GEO、ARI和GPS，Vision-R1-7B分别取得了80.3%、79.0%和83.2%的分数，平均准确率比基础模型Qwen-2.5-VL-7B提高了超过10%。这些结果突显了Vision-R1-7B通过“类似人类”的复杂思维过程获得的强大推理能力。此外，在更具挑战性的MathVerse和MM-Math基准测试中，Vision-R1-7B分别排名Top-1和Top-2，后者仅排在Qwen-2.5-VL-72B之后。这证明了Vision-R1-7B在解决复杂数学问题上的有效性。

冷启动数据集质量。作者对提出的Vision-R1-cold数据集进行了质量分析。构建Vision-R1-cold的主要目标是补充现有的多模态CoT数据集，这些数据集缺乏复杂的认知过程，并利用DeepSeek-R1的高质量CoT过程作为冷启动数据。为了评估这一点，作者在表2中展示了比较分析，其中作者统计地检验了Mulberry、LLaVACoT和Vision-R1-cold数据集CoT过程中的提问、反思和检查的存在情况。结果表明，与之前的多模态CoT数据集相比，Vision-R1-cold包含更高比例的人类似认知过程。这种复杂的CoT结构有助于基础MLLM学习推理机制，为后续的RL训练提供了一个高质量的冷启动初始化。

此外，作者还通过在Llama-3.2-11B-V上进行训练，将Vision-R1-cold与之前的多模态CoT数据集进行了比较。在SFT之后，作者的Vision-R1-LlamaV-CI-11B模型在所有通用和数学推理基准测试中均达到了SoTA性能，超越了LLaVA-CoT-11B和Mulberry-Llama-11B。值得注意的是，Vision-R1-LlamaV-CI11B在MM-Math基准测试上比MulberryLlama-11B提高了7.4%的准确率，这直接证实了作者的Vision-R1-cold数据集具有更优的数据质量。

4.3 消融研究

如表4所示，作者比较了各种强化学习训练策略的性能。结果表明，直接应用强化学习训练且没有冷启动初始化的Vision-R1-Zero在生成足够长和复杂的CoT推理方面存在困难，从而限制了其处理复杂推理任务的能力。相比之下，经过冷启动初始化的Vision-R1-CI倾向于生成过长的CoT。然而，由于存在许多错误的推理步骤，导致整体性能下降。此外，通过将强化学习训练直接应用于Vision-R1-CI的Vision-R1-Long导致了优化困难，使得实现显著的性能提升变得具有挑战性。相比之下，作者提出的Vision-R1在推理性能上展现出显著优势，有效地平衡了CoT的复杂性和准确性。

4.4 可视化

如图5所示，作者提出的Vision-R1-7B能够生成复杂的推理过程，并展现出所谓的“啊哈时刻”现象[2]，即一种类似于人类认知过程，涉及质疑和反思的现象。这种复杂的推理能力显著提升了模型的推理性能，导致在解决复杂推理任务方面取得了实质性改进。

5. 结论

作者探讨了如何利用强化学习训练来激励多语言大语言模型（MLLLMs）的推理能力。此外，作者提出了Vision-R1并实现了强大的数学推理能力，其性能与最先进的（SoTA）MLLLMs相当。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述