阿里多模态RAG新框架，快速提升图文检索准确率

最新推荐文章于 2025-05-20 12:02:10 发布

小天才学习机打游戏

最新推荐文章于 2025-05-20 12:02:10 发布

阅读量1.6k

点赞数 15

文章标签：人工智能 3d microsoft transformer 计算机视觉

本文链接：https://blog.csdn.net/m0_59164520/article/details/144198570

版权

今天分享的是阿里的一篇论文：

Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-adaptive Planning Agent.

多模态检索增强生成的基准测试与动态VQA数据集及自适应规划代理

这篇文章目前在ICLR2025审稿中。

论文链接：https://arxiv.org/pdf/2411.02937

代码链接：https://github.com/Alibaba-NLP/OmniSearch

01.摘要

本文研究了一种多模态检索增强生成技术 (mRAG)，该技术对于减少多模态大型语言模型 (MLLMs) 中固有的“虚构”问题具有重要作用。然而，现有的启发式mRAG通常预设了固定的检索过程，导致非自适应检索查询和检索查询过载两大问题。

为了解决这个问题，作者构建了一个新的动态视觉问答 (VQA) 数据集——Dyn-VQA，其中包含三种类型的动态问题，这些问题需要复杂且变化的知识检索策略。接着，作者提出了一种首个自适应检索规划代理——OmniSearch，它能够模仿人类解题过程中的动态分解复杂多模态问题为子问题链并执行检索操作。通过大量实验验证了OmniSearch的有效性，并为改进mRAG提供了方向。

02.主要工作

Dyn-VQA数据集：解决动态知识检索问题

Dyn-VQA数据集 是为评估mRAG方法在处理动态知识检索任务中的表现而构建的，包含 1,452 个问题，主要针对以下几类情况：

实时变化的答案：如体育赛事结果、股票价格等，要求模型能够根据实时更新的数据进行推理并提供准确答案。
多模态知识检索：例如“这张照片中的人是谁？”，模型不仅需要理解图像，还要结合文本信息进行推理。
多跳推理问题：例如“这张照片中的人是做什么工作的？”需要通过多步推理，从识别图像中的对象到检索相关文本信息，最终得出结论。

数据集构建流程

构建Dyn-VQA数据集时，分为三个步骤：

文本问题写作：根据问题类型（如是否需要多模态知识、推理步骤等）进行分类，并编写相应的文本问题。
多模态改写：将文本问题转换为多模态问题，结合图像或其他视觉元素。
中英文翻译与校对：确保问题在中英文之间的翻译准确性。

数据集覆盖领域

Dyn-VQA涵盖了体育、娱乐、公司、产品、交通、政治、科技、艺术、自然等9个领域，确保了问题类型的广泛性，包括动态问题、多模态问题和多跳推理问题。

OmniSearch：提升动态知识检索能力

OmniSearch是一个自适应的检索agent，专为解决mRAG方法在动态知识检索中的问题而设计。它模拟人类解决复杂问题的方式，将问题分解为子问题并逐一检索答案。

框架结构

OmniSearch由三个模块组成：

规划agent：核心模块，负责理解问题、生成子问题、选择检索工具并动态调整检索策略。
检索器：执行具体的检索操作，支持文本搜索、图像搜索等。
子问题求解器：根据检索结果解答子问题，并向规划agent提供反馈。

规划agent动作

每个动作包括四个关键部分：

自我思考 (ST)：根据问题和检索内容进行思考，决定下一步的行动。
子问题 (SQ)：生成与原始问题相关的子问题，可以通过检索操作解答。
检索API ®：选择合适的检索工具，如文本搜索、图像搜索等。
API查询 (Q)：生成查询内容，在检索工具中查找相关信息。

OmniSearch工作流程

接收问题：规划agent获取到输入问题。
自我思考并生成子问题：规划agent进行推理并生成与问题相关的子问题。
选择检索工具并查询：规划agent选择检索工具并生成查询内容。
执行检索并返回结果：检索器进行检索并返回结果。
求解子问题并反馈：子问题求解器解答子问题并反馈给规划agent。
循环迭代：规划agent根据反馈调整思考，生成新的子问题，直到得到最终答案。

OmniSearch优势

自适应性：根据问题的具体内容和检索结果，动态调整检索策略。
多模态：支持从多种模态（文本、图像等）中检索知识。
可扩展性：可以与各种MLLM模型配合使用，并根据计算资源调整子问题求解器的规模。

总结

这篇文章研究了多模态检索增强生成 (mRAG) 技术，旨在解决多模态大型语言模型 (MLLMs) 固有的“幻觉”问题。文章指出，现有的启发式mRAG方法存在检索过程固定、缺乏适应性等问题，而现有的VQA数据集无法充分反映这些问题。

为此，文章构建了Dyn-VQA数据集，包含三种需要动态知识检索的“动态”问题，并提出了自适应性检索agent OmniSearch，能够根据问题解决状态和检索内容动态调整检索策略，有效提升MLLMs的多模态问答能力。

实验结果表明，OmniSearch在Dyn-VQA数据集上取得了显著的效果，为mRAG研究提供了新的思路和方法。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述