DeepSeek-R1的风吹到了多模态，Visual-RFT发布，视觉任务性能飙升20%-CSDN博客

本文链接：https://blog.csdn.net/m0_59164520/article/details/146494812

尽管DeepSeek-R1风格的模型在语言模型中已经取得了成功，但其在多模态领域的应用仍然有待深入探索。

上交大等提出并开源 Visual-RFT，将 RFT 扩展到视觉任务，通过设计针对不同视觉任务的可验证奖励函数，提升 LVLMs 在视觉感知和推理任务中的性能。

视觉强化微调（Visual-RFT）的概述。与（a）数据驱动的视觉指令微调相比，（b）视觉强化微调（Visual-RFT）在有限数据下更具数据效率。（c）成功地将RFT应用于一系列多模态任务，并在底部展示了模型的推理过程示例。

Refer to caption

Visual-RFT 的核心在于利用 LVLMs 生成多个包含推理过程和最终答案的响应，并通过可验证奖励函数对模型进行策略优化。具体步骤如下：

任务输入：模型接收图像和问题作为输入。
响应生成：LVLMs 生成多个可能的响应，每个响应包含推理过程和最终答案。
奖励计算：针对不同任务（如目标检测、分类等），设计特定的可验证奖励函数，如 IoU 奖励（用于目标检测）和分类准确率奖励。
策略优化：使用 GRPO 等策略优化算法，根据奖励函数更新模型参数。

可验证奖励函数

*IoU 奖励（目标检测）*：通过计算预测边界框与真实边界框的交并比（IoU）来评估检测任务的奖励。
*分类准确率奖励（分类任务）*：通过比较模型输出类别与真实类别来评估奖励。

视觉强化微调（Visual-RFT）的框架。给定问题和视觉图像输入后，策略模型会生成多个包含推理步骤的响应。然后，使用可验证奖励（如IoU奖励和分类奖励）与策略梯度优化算法来更新策略模型。

在细粒度图像分类、少样本目标检测、推理定位以及开放词汇目标检测基准测试中的实验结果表明，与监督微调（SFT）相比，Visual-RFT具有竞争力的性能和先进的泛化能力：

在大约100个样本的单样本细粒度图像分类中，Visual-RFT的准确率比基线提高了24.3%。
在少样本目标检测中，Visual-RFT在COCO的两样本设置中超过了基线21.9，在LVIS上超过了15.4。

Visual-RFT代表了对LVLMs微调范式的一种转变，提供了一种数据高效、由奖励驱动的方法，增强了对特定领域任务的推理能力和适应性。

细粒度图像分类的定性结果。推理过程显著提升了大型视觉语言模型（LVLMs）的推理能力，从而提高了图像分类的性能。

在LISA [11] 数据集上的推理定位任务的定性结果。通过Visual-RFT，推理过程显著提升了模型的推理定位能力。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述