Vision-R1:用 “冷启动 + 强化学习” 解锁多模态模型的推理能力

关键词:多模态大模型、推理能力、冷启动、强化学习

1. 研究背景
  • 多模态推理短板:现有MLLMs擅长视觉理解,但复杂推理(如数学解题)能力不足,传统方法生成的思维链(CoT)缺乏人类认知逻辑。
  • RL训练瓶颈:直接对MLLMs应用强化学习(RL)易导致推理混乱,需数据与算法双重优化。
2. Vision-R1核心方法
  • 冷启动初始化
    • 构建高质量多模态CoT数据集(Vision-R1-cold):通过模态桥接(MLLM生成Pseudo-CoT)和文本推理增强(DeepSeek-R1优化),生成包含质疑、反思的复杂推理链。
  • 渐进式思维抑制训练(PTST)
    • RL训练早期限制推理长度,引导模型聚焦正确逻辑,后期逐步放松,平衡简单与复杂任务。
    • 结合组相对策略优化(GRPO)算法,解决过度思考问题。
3. 实验突破
  • 数学推理:Vision-R1-7B在MathVista基准上准确率73.5%,接近OpenAI O1(73.9%),参数仅为后者1/10。
  • 泛化能力:在ChartQA、MMStar等通用任务中表现优于基线模型。
  • 数据质量验证:Vision-R1-cold中“Wait”“Check”等反思词汇出现频率是LLaVA-CoT的254倍,更贴近人类思维。
4. 研究价值

首次证明RL训练可有效提升MLLMs的复杂推理能力,为多模态模型在教育、科研等领域的应用奠定基础。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

程序员石磊

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值