关键词:多模态大模型、推理能力、冷启动、强化学习
1. 研究背景
- 多模态推理短板:现有MLLMs擅长视觉理解,但复杂推理(如数学解题)能力不足,传统方法生成的思维链(CoT)缺乏人类认知逻辑。
- RL训练瓶颈:直接对MLLMs应用强化学习(RL)易导致推理混乱,需数据与算法双重优化。
2. Vision-R1核心方法
- 冷启动初始化:
- 构建高质量多模态CoT数据集(Vision-R1-cold):通过模态桥接(MLLM生成Pseudo-CoT)和文本推理增强(DeepSeek-R1优化),生成包含质疑、反思的复杂推理链。
- 渐进式思维抑制训练(PTST):
- RL训练早期限制推理长度,引导模型聚焦正确逻辑,后期逐步放松,平衡简单与复杂任务。
- 结合组相对策略优化(GRPO)算法,解决过度思考问题。
3. 实验突破
- 数学推理:Vision-R1-7B在MathVista基准上准确率73.5%,接近OpenAI O1(73.9%),参数仅为后者1/10。
- 泛化能力:在ChartQA、MMStar等通用任务中表现优于基线模型。
- 数据质量验证:Vision-R1-cold中“Wait”“Check”等反思词汇出现频率是LLaVA-CoT的254倍,更贴近人类思维。
4. 研究价值
首次证明RL训练可有效提升MLLMs的复杂推理能力,为多模态模型在教育、科研等领域的应用奠定基础。