摘要
强化微调(RFT)在像OpenAI o1这样的大型推理模型中,通过对答案的反馈进行学习,这在微调数据稀缺的应用中尤为有用。最近的开源工作如DeepSeek R1表明,使用可验证奖励的强化学习是复现o1的一个关键方向。虽然R1风格的模型在语言模型中取得了成功,但其在多模态领域的应用仍未得到充分探索。本文引入了视觉强化微调(Visual-RFT),进一步扩展了RFT在视觉任务上的应用领域。具体来说,Visual-RFT首先使用大型视觉语言模型(LVLMs)为每个输入生成包含推理标记和最终答案的多个响应,然后使用我们提出的视觉感知可验证奖励函数,通过策略优化算法(如组相对策略优化(GRPO))来更新模型。我们为不同的感知任务设计了不同的可验证奖励函数,例如目标检测的交并比(IoU)奖励。在细粒度图像分类、少样本目标检测、推理定位以及开放词汇目标检测基准上的实验结果表明,与监督微调(SFT)相比,Visual-RFT具有竞争力的性能和先进的泛化能力。例如,在约100个样本的单样本细粒度图像分类中,Visual-RFT的准确率比基线提高了24.3%。在少样本目标检测中,Visual-RFT在COCO的双样本设置下也超过基线21.9,在LVIS上超过15.4。我们的Visual-RFT代表了微调LVLMs的范式转变