摘要:在如OpenAI的o1等大型推理模型中,强化微调(Reinforcement Fine-Tuning, RFT)通过答案反馈进行学习,这在微调数据稀缺的应用场景中尤为有用。近期的开源工作,如DeepSeek-R1,展示了带有可验证奖励的强化学习是复现o1性能的一个关键方向。尽管R1风格的模型在语言模型中已取得成功,但其在多模态领域的应用仍探索不足。本研究提出了视觉强化微调(Visual Reinforcement Fine-Tuning, Visual-RFT),进一步拓展了RFT在视觉任务中的应用范围。具体而言,Visual-RFT首先利用大型视觉-语言模型(Large Vision-Language Models, LVLMs)为每个输入生成包含推理标记和最终答案的多个响应,然后使用我们提出的视觉感知可验证奖励函数,通过策略优化算法(如群组相对策略优化(Group Relative Policy Optimization, GRPO))来更新模型。我们为不同的感知任务设计了不同的可验证奖励函数,例如,为对象检测任务设计了交并比(Intersection over Union, IoU)奖励。在细粒度图像分类、少样本对象检测、推理接地以及开放词汇对象检测基准测试中的实验结果表明,与监督微调(Supervised Fine-tuning, SFT)相比,Visual-RFT具有竞争力的性能和更强的泛化能力。例如,在一项包含约100个样本的单样本细粒度图像分类任务中,Visual-RFT相比基线方法提高了24.3%的准确率。在少样本对象检测方面,Visual-RFT在COCO数据集的两样本设置下超过了基线方法21.9个点,在LVIS数据集上超过了15.4个点。我们的Visual-RFT代表了LVLMs微调范式的一种转变,提供了一种数据高效、奖励驱动的方法,增强了领域特定任务的推理能力和适应性。Huggingface链接:Paper page,论文链接:2503.01785
一、引言
在人工智能领域,大型推理模型(Large Reasoning Models, LRMs)如OpenAI的o1展现了强大的推理能力,它们在设计上倾向于在回答问题之前进行更多的“思考”。这类模型的一个显著特性是强化微调(Reinforcement Fine-Tuning, RFT),它能够在仅有数十到数千个样本的情况下对模型进行微调,从而在特定领域任务中表现出色。尽管o1的具体实现细节未公开,但近期的开源研究,如DeepSeek-R1,揭示了可验证奖励(Verifiable Rewards)是复现o1性能的一个关键方向。这些研究表明,在强化学习中,奖励分数直接由预定义的规则决定,而不是通过训练在偏好数据上的单独奖励模型来预测。
传统的监督微调(Supervised Fine-Tuning, SFT)与RFT的主要区别在于数据效率。SFT直接模仿高质量、经过策划的数据中的“标准答案”,因此依赖于大量的训练数据。相比之下,RFT通过评估模型的响应并根据其正确性进行调整来学习,这有助于模型通过试错法学习,因此在数据稀缺的领域特别有用。然而,过去普遍认为RFT仅适用于科学和代码生成等任务,因为这些任务具有清晰且客观的最终答案或测试用例,使得奖励验证相对直接。本文则展示了RFT可以超越数学和代码领域,应用于视觉感知任务。
二、Visual-RFT方法概述
为了将RFT扩展到视觉任务,本文提出了视觉强化微调(Visual Reinforcement Fine-Tuning, Visual-RFT),成功地将RFT应用于增强大型视觉-语言模型(Large Vision-Language Models, LVLMs)在各种多模态任务中的性能。Visual-RFT的实施细节如图2(b)所示,对于每个输入,它使用LVLMs生成包含推理标记和最终答案的多个响应。关键在于,我们为不同的任务设计了基于规则的可验证奖励函数,以指导策略优化算法(如GRPO)更新模型。例如,为对象检测任务设计了交并比(IoU)奖励。
1. 可验证奖励设计
- IoU奖励(对象检测):在检测任务中,模型的输出包括边界框(bbox)和相应的置信度。奖励函数应充分考虑交并比(IoU)度量,这是评估中计算平均精度(mAP)的标准。因此,我们设计了基于IoU和置信度的奖励函数R_d,包括IoU奖励、置信度奖励和格式奖励。IoU奖励是模型输出中所有边界框的平均IoU,置信度奖励则根据IoU值调整,对于成功匹配的边界框,置信度越高奖励越高,反之亦然。
- CLS奖励(分类任务):在分类任务中,奖励函数包括准确率奖励和格式奖励。准确率奖励通过将模型输出的类别与真实类别进行比较来确定,正确分类得1分,错误分类得0分。
2. 数据准备
为了在各种视觉感知任务上训练Visual-RFT,我们需要构建多模态训练数据集。类似于DeepSeek-R1,为了增强模型的推理能力并将其应用于提高视觉感知能力,Visual-RFT设计了一种提示格式,引导模型在提供最终答案之前输出其推理过程。表1列出了用于检测和分类任务的提示。在训练过程中,我们使用格式奖励来引导模型以结构化格式输出推理过程和最终答案。
三、Visual-RFT的应用与实验
1. 细粒度图像分类
在细粒度图像分类任务中,模型利用其先进的推理能力来分析具有高度相似性的细粒度类别。在一项包含约100个样本的单样本设置中,Visual-RFT将准确率提高了24.3%,而SFT则下降了4.3%。在4样本设置下,Visual-RFT的平均性能提高了25.9%。这些结果不仅展示了Visual-RFT在数据有限情况下的强大泛化能力,还证实了与SFT相比,强化微调能够导致对任务更深入的理解和从推理中的更深入学习。
2. 少样本对象检测
少样本学习一直是传统视觉模型和大型视觉-语言模型面临的核心挑战之一。强化微调通过使模型能够用少量数据快速学习和理解,为解决这一问题提供了新的解决方案。在COCO数据集上的实验结果表明,随着训练数据的增加,SFT模型的平均mAP约为31,而强化微调后的模型接近47。在LVIS数据集的少样本实验结果中,对于六个更具挑战性的稀有类别,强化微调仍然优于SFT。这些结果清楚地证明了强化微调在少样本设置中的卓越性能,模型通过强化学习仅用少量数据就显著提高了视觉感知能力。
3. 推理接地
视觉-语言智能的另一个重要方面是根据用户需求对精确对象进行接地。先前的专用检测系统缺乏推理能力,无法完全理解用户的意图。受LISA的启发,本研究探索了Visual-RFT在这一任务中的应用,发现强化学习(RL)相比监督微调(SFT)有显著改进。在LISA训练集上对Qwen2-VL 2B/7B模型进行微调,Visual-RFT在边界框IoU方面显著提高了最终结果,并且显著增强了接地能力,优于先前的专用检测系统。
4. 开放词汇对象检测
与SFT相比,Visual-RFT的优势在于前者对任务有真正的深入理解,而不仅仅是记忆数据。为了进一步展示强化微调的强大泛化能力,我们进行了开放词汇对象检测实验。在COCO数据集的15个新类别上的测试结果表明,经过强化微调后,Qwen2-VL-2/7B模型的平均mAP分别提高了21.5和9.5。在LVIS数据集上更具挑战性的稀有类别上,mAP分别提高了18.0和14.7。值得注意的是,对于LVIS数据集中的一些稀有类别,原始或SFT训练模型无法识别这些类别(AP为0),但经过强化微调后,模型在识别这些先前无法识别的类别上实现了质的飞跃(如egg roll和futon)。
四、结论
本文介绍了视觉强化微调(Visual-RFT),这是首个将基于GRPO的强化学习策略应用于增强LVLMs视觉感知和接地能力的方法。通过使用基于规则的可验证奖励系统,Visual-RFT减少了对手动标注的需求,简化了奖励计算,并在各种视觉感知任务中取得了显著改进。实验结果表明,Visual-RFT在细粒度分类、开放词汇检测、推理接地和少样本学习任务中表现优异,相比监督微调(SFT)在少量数据下表现出更强的泛化能力。这项工作展示了强化学习在增强LVLMs能力方面的潜力,使它们在视觉感知任务中更加高效和有效。
五、未来展望
Visual-RFT的提出为视觉-语言模型的微调提供了新的范式,展示了强化学习在提升模型性能方面的巨大潜力。未来的研究可以进一步探索以下几个方面:
- 拓展应用场景:将Visual-RFT应用于更多类型的视觉任务,如视频理解、3D视觉等,以验证其广泛适用性。
- 优化奖励函数:设计更加精细和复杂的奖励函数,以更好地引导模型学习,提高任务完成的质量和效率。
- 结合其他技术:将Visual-RFT与其他技术相结合,如自监督学习、迁移学习等,以进一步提升模型的泛化能力和鲁棒性。
- 理论分析与解释:对Visual-RFT的工作原理进行更深入的理论分析,解释其为何能够在数据稀缺的情况下取得优异的性能。
总之,Visual-RFT为视觉-语言模型的微调开辟了新的道路,有望在未来的人工智能领域发挥重要作用。