🎯 引言:当视觉遇见逻辑的困境
在人工智能的竞技场上,大型多模态模型(LMM)如同拥有视觉与语言双翼的智慧生物。但当它们面对需要深度推理的复杂任务时,却常常像初学几何的学生——看得见图形,却解不出题目。最新研究表明,仅3B参数的LMM在旋转几何体侧面积计算任务中,错误率高达67%,而人类中学生却能轻松解决。这种差距揭示了一个残酷现实:多模态模型的推理能力,正成为制约其发展的阿喀琉斯之踵。
图示:LMM-R1通过勾股定理正确计算圆锥侧面积,而基线模型错误识别斜高
🌱 基础推理增强:文本训练的魔力
规则强化学习的数学特训
想象一位数学老师不再直接讲解公式,而是让学生通过大量习题自主发现规律——这正是LMM-R1的第一阶段训练哲学。研究团队采用规则强化学习(Rule-based RL),让模型在纯文本数学题海中自我探索。这种训练方式的神奇之处在于:
- 自主纠错机