多模态推理+RL,今年很值得做的一个方向
从年初deepseek爆火之后,大家都开始做多模态推理➕强化学习的工作,偶然间刷到这篇工作,做了很多创新。今年的RL可以做数据合成,跟多模态推理融合等,同时也有一些顶会也在做类似的方向,找不到方向的同学和team可以参考下。


引言
在真实业务场景中,大量关键信息隐藏在图像、表格、设计稿等视觉内容中。这些“视觉语言”对人工智能(AI)来说不仅是理解的挑战,更是推理能力的终极考验。传统的检索增强型生成(RAG)方法在处理视觉丰富信息时面临诸多限制,例如无法有效理解图像内容、缺乏动态推理能力等。为此,通义实验室自然语言智能团队研发并开源了 VRAG-RL,一种视觉感知驱动的多模态RAG推理框架。本文将详细介绍 VRAG-RL 的技术创新、核心机制、应用场景以及开源实现。
传统 RAG 方法的局限性
传统 RAG 方法主要基于文本处理,难以应对图像、图表、设计稿等视觉内容。以下是其主要局限性:
-
视觉信息处理能力不足:基于文本的 RAG 方法无法有效解析图像中的信息,缺乏对视觉数据的理解和推理能力。 -
固定流程限制动态推理:现有视觉 RAG 方法多采用固定的检索-生成流程,难以在复杂任务中动态调整推理路径,限制了模型挖掘视觉信息的能力。 -
检索效率与推理深度不足:传统方法在处理复杂视觉任务时,往往无法高效定位关键信息,导致生成结果不够精准。
为解决上述问题,VRAG-RL 从 强化学习赋能多模态智能体****训练、视觉感知机制设计 以及 检索与推理协同优化 三个维度进行了系统性创新,构建了一种能够主动感知、动态推理并高效检索的新型视觉增强生成框架。

VRAG-RL 的核心创新
VRAG-RL 通过引入多样化的视觉感知动作和强化学习训练策略,彻底革新了传统 RAG 范式。以下是其核心创新点:
-
视觉感知动作空间
VRAG-RL 定义了一套视觉感知动作空间,包括 区域选择、裁剪 和 缩放 等操作。这些动作使视觉语言模型(VLMs)能够从粗粒度到细粒度逐步聚焦信息密集区域,精准提取关键视觉信息。例如,在处理复杂图表或布局时,模型首先从整体图像中提取大致信息,然后通过裁剪和缩放逐步聚焦关键区域,获取更清晰、更详细的视觉内容。这种从粗到细的感知方式显著提高了模型对视觉信息的理解能力和检索效率。
包括选择感兴趣区域并进行裁剪和缩放。这使得VLMs能够从粗粒度到细粒度地获取信息。公式如下:
At×Ok→Ot,k∈{1,2,…,t−1}
其中,At表示在第t步生成的动作,Ok表示第k步的观察,R表示感兴趣的区域。

-
强化学习驱动的多模态训练
VRAG-RL 采用业界领先的 GRPO(Generalized Proximal Policy Optimization****) 算法,通过多轮交互优化视觉语言模型的检索与推理能力。在训练过程中,VRAG-RL 使用 多专家采样策略:
-
大规模模型:负责确定整体推理路径,指导模型的决策过程。 -
专家模型:在大规模模型的指导下,对图像中的关键区域进行精确标注。
通过结合大规模模型的推理能力和专家模型的精确标注,VRAG-RL 在训练中学习到更有效的视觉感知策略,从而在实际应用中表现出更强的信息提取与逻辑推理能力。
定义了一个综合奖励函数,包括模式奖励、检索效率奖励和基于模型的结果奖励。公式如下:
rϕ=α⋅rRet+β⋅rAns+γ⋅rPat
其中,rRet表示检索效率奖励,rAns表示基于模型的结果奖励,rPat表示模式奖励,α、β和γ是权重参数。


-
细粒度奖励机制
VRAG-RL 的训练过程引入了多维度奖励机制,将 检索效率、模式一致性 和 生成质量 融合,引导模型优化检索与推理路径:
-
检索效率奖励:基于信息检索领域的 NDCG(Normalized Discounted Cumulative Gain) 指标,激励模型优先检索相关度高的图像内容,快速构建高质量上下文。 -
模式一致性奖励:确保模型遵循预设的推理逻辑路径,避免因模式偏差导致生成结果偏离任务目标。 -
生成质量奖励:通过评估生成答案的质量,引导模型输出更准确、连贯的答案。
这种多维度奖励机制实现了检索与推理的双向驱动:高效的检索为深入推理提供支撑,而推理反馈进一步优化检索策略,形成闭环优化。

-
本地部署与高效训练
VRAG-RL 通过本地部署搜索引擎模拟真实应用场景,实现零成本的搜索引擎调用,大幅提升训练效率。同时,模型的泛化能力使其在不同领域和视觉任务中表现出色,为多模态智能体的训练提供了全新解决方案。

性能表现
VRAG-RL 在多个视觉语言基准数据集上表现出显著优于现有方法的性能,涵盖了从单跳到多跳推理、从纯文本理解到图表识别和复杂布局解析等多种场景。实验结果表明,VRAG-RL 在以下方面表现突出:
-
检索能力:通过从粗到细的视觉感知动作,快速定位相关区域。 -
推理深度:支持多轮交互推理,逐步聚焦信息密集区域。 -
生成质量:生成更准确、连贯的答案。
相比传统方法(如 Vanilla RAG、ReAct RAG)以及基于强化学习的 Search-R1 方法,VRAG-RL 在综合性能上展现出显著优势。
开源与快速上手
通义实验室已将 VRAG-RL 的完整技术方案发布于 arXiv(arxiv.org/pdf/2505.22019),并将全部源代码开源至 GitHub(github.com/Alibaba-NLP/VRAG)。为便于快速体验与二次开发,项目提供了可一键运行的 Demo 示例,支持本地快速部署。以下是快速上手指南:

环境准备
创建虚拟环境
conda create -n vrag python=3.10
克隆项目
git clone https://github.com/alibaba-nlp/VRAG.git
cd VRAG
安装依赖
pip install -r requirements.txt
部署搜索服务
启动搜索引擎服务
python search_engine/search_engine_api.py
部署视觉语言模型(以 Qwen2.5-VL-7B 为例)
vllm serve autumncc/Qwen2.5-VL-7B-VRAG --port 8001 --host 0.0.0.0 --limit-mm-per-prompt image=10 --served-model-name Qwen/Qwen2.5-VL-7B-Instruct
启动 Demo
streamlit run demo/app.py
构建自定义 VRAG
用户可通过以下步骤在自己的文档库上构建 VRAG:
-
构建索引数据库: -
将文档转换为 .jpg
格式并存储至search_engine/corpus/img
。 -
使用 search_engine/ingestion.py
嵌入整个数据集。
-
-
运行多模态检索器: -
初始化搜索引擎并进行批量检索。
-
-
运行 VRAG: -
使用 Streamlit 启动 Demo,或通过 vrag_agent.py
集成到自定义框架。
-
应用场景
VRAG-RL 适用于多种视觉丰富场景,包括但不限于:
-
复杂图表分析:从财务报表、科学图表中提取关键数据。 -
设计稿解析:理解和推理设计稿中的布局与元素。 -
文档检索:在包含图像、表格的文档知识库中高效检索信息。 -
多模态问答:结合文本与图像进行多跳推理,回答复杂问题。
结论
VRAG-RL 是一种突破性的视觉感知驱动多模态 RAG 推理框架,通过强化学习、多维度奖励机制和细粒度视觉感知动作,显著提升了视觉语言模型在复杂任务中的检索与推理能力。其开源实现为开发者提供了灵活的工具,助力探索多模态智能体的广泛应用。未来,通义实验室将继续优化 VRAG-RL,释放视觉语言模型的更大潜力。
优点与创新
-
提出了一个新的强化学习框架:VRAG-RL,专门用于视觉丰富信息的复杂推理。 -
定义了视觉感知动作空间:包括选择、裁剪和缩放感兴趣区域,使模型能够从粗粒度到细粒度逐步获取信息。 -
引入了综合奖励结构:将检索性能和基于模型的结果奖励结合起来,使模型更贴近实际应用。 -
多轮生成与搜索引擎交互:模型通过迭代推理和工具调用的方式与搜索引擎进行多轮交互。 -
数据集扩展:重新注释现有的视觉丰富文档数据集,并开发了高效的数据构建管道以扩展数据。 -
实验结果显著:在各种基准测试中,VRAG-RL比现有方法提高了20%(Qwen2.5-VL-7B)和30%(Qwen2.5-VL-3B)。
不足与反思
-
未来工作:计划引入更多模仿人类处理复杂信息的动作,使模型能够更多地专注于深度思考。 -
减少幻觉:希望通过利用更先进的模型来进一步减少幻觉,提高框架的准确性和可靠性。
关键问题及回答
问题1:VRAG-RL框架中的视觉感知动作空间是如何设计的?它如何帮助VLMs从粗粒度到细粒度地获取信息?
VRAG-RL框架引入了一个视觉感知动作空间,包括选择感兴趣区域并进行裁剪和缩放。具体来说,视觉感知动作空间使得VLMs能够在每次交互中选择、裁剪和缩放图像中的感兴趣区域。公式如下:
At×Ok→Ot,k∈{1,2,…,t−1}
其中,At表示在第t步生成的动作,Ok表示第k步的观察,R表示感兴趣的区域。通过这种方式,VLMs可以从粗粒度到细粒度地逐步获取信息,从而更有效地激活推理能力,防止忽略细节。
问题2:VRAG-RL框架中的细粒度奖励函数是如何设计的?它如何综合评估模型的检索和推理能力?
VRAG-RL框架定义了一个综合奖励函数,包括模式奖励、检索效率奖励和基于模型的结果奖励。具体公式如下:
rϕ=α⋅rRet+β⋅rAns+γ⋅rPat
其中,rRet表示检索效率奖励,rAns表示基于模型的结果奖励,rPat表示模式奖励,α、β和γ是权重参数。检索效率奖励通过归一化折扣累积增益(NDCG)来衡量检索的质量;基于模型的结果奖励通过一个评估模型来评估生成答案的正确性;模式奖励则鼓励模型遵循预定义的推理模式。这种综合奖励机制确保了模型在检索和推理过程中都能得到有效的指导,从而提高整体性能。
问题3:VRAG-RL框架在实验中表现如何?与其他方法相比有哪些优势?
VRAG-RL框架在多个视觉丰富信息的推理、检索和理解任务中表现出色。具体来说,VRAG-RL在Qwen2.5-VL-7B-Instruct数据集上比现有方法提高了20%以上的性能,在Qwen2.5-VL-3B-Instruct数据集上提高了30%以上的性能。与其他方法相比,VRAG-RL的优势包括:
1)引入视觉感知动作空间,增强了VLMs的视觉感知和推理能力;
2)设计了综合奖励函数,优化了模型的检索和推理性能;
3)采用Group Relative Policy Optimization (GRPO)算法进行强化学习训练,提高了训练的稳定性和效率。
{
"target":"简单认识我",
"selfInfo":{
"genInfo":"大厂面试官,中科院硕,从事数据闭环业务、RAG、Agent等,承担技术+平台的偏综合性角色。善于调研、总结和规划,善于统筹和协同,喜欢技术,喜欢阅读新技术和产品的文章与论文",
"contactInfo":"abc061200x, v-adding disabled",
"slogan":"简单、高效、做正确的事",
"extInfo":"喜欢看电影、喜欢旅游、户外徒步、阅读和学习,不抽烟、不喝酒,无不良嗜好"
}
}