AI回答,不止于文字!阿里OmniSearch与传统的一场检索较量

f8b86c3ef1f9e4c49b42b461c89882ca.png

今天给大家分享一篇阿里的文章,目前还在ICLR2025投稿中,真的很不错!

这篇论文提出了一种新的自适应规划代理OmniSearch,用于多模态检索增强生成(mRAG),并通过构建Dyn-VQA数据集展示了其在处理动态问题上的有效性。

论文: Benchmarking Multimodal Retrieval Augmented Generation with Dynamic VQA Dataset and Self-Adaptive Planning Agent
链接: https://arxiv.org/pdf/2411.02937

研究背景

  1. 研究问题:这篇文章要解决的问题是如何有效地进行多模态检索增强生成(mRAG),以缓解多模态大型语言模型(MLLMs)中的“幻觉”问题。现有的启发式mRAG方法通常预定义了固定的检索过程,导致两个主要问题:非自适应检索查询和过载检索查询。

  2. 研究难点:该问题的研究难点包括:现有知识寻求视觉问答(VQA)数据集无法充分反映启发式mRAG在获取复杂知识时的刚性问题;动态问题的复杂性使得现有方法难以提供足够且精确的相关知识。

    0505da6f4cf94185531c17ec78c47056.png

  3. 相关工作:该问题的研究相关工作有:Zhao等人(2024)提出的mRAG方法,Gao等人(2023)的研究,以及Bai等人(2024)的工作。这些方法虽然在某些VQA数据集上表现出色,但在处理动态问题时存在不足。

研究方法

这篇论文提出了自我自适应规划代理OmniSearch,用于解决多模态检索增强生成中的刚性问题。具体来说,

  1. 数据集构建:首先,构建了Dyn-VQA数据集,包含1452个动态问题,这些问题的答案会快速变化,需要多模态知识和多跳推理。

  2. OmniSearch框架:OmniSearch的核心思想是模仿人类在解决问题时的行为,将复杂的多元模态问题动态分解为带有检索动作的子问题链。具体包括三个模块:

  • 规划代理:负责制定子问题和后续检索动作。每个计划动作包括四个关键部分:自思<ST>、子问题<SQ>、检索API<R>和API查询<Q>。

    259920d2f3497b3a393039795ba97404.png

  • 检索器:执行实际的检索操作,包括网页搜索、带文本的图像搜索和带图像的图像搜索。

  • 子问题求解器:根据检索内容总结并尝试回答子问题,然后将反馈提供给规划代理。

  1. 多模态检索增强生成:OmniSearch可以与任意MLLM配合使用,增强其解决复杂动态问题的能力。OmniSearch基于闭源的GPT-4V和开源的Qwen-VL-Chat分别开发了两个版本。

实验设计

  1. 数据收集:Dyn-VQA数据集通过专业AI研究人员手动标注,包含约1.5K个问题,覆盖9个领域,涵盖三种需要复杂动态检索的问题类型:答案快速变化的问题、需要多模态知识的问题和多跳问题。

  2. 实验设置:选择了几种先进的MLLMs作为骨干模型,包括Qwen-VL-7B-Chat、GPT-4V和Qwen-VL-Max。评估指标为自动化指标F1-Recall,计算模型生成响应与真实答案之间的公共令牌比率。

  3. 参数配置:使用LoRA进行参数高效微调,学习率为1e-4,权重衰减为0.1,训练批次大小为4,梯度累积步长为8,最大序列长度为8192。

结果与分析

  1. 主要结果:OmniSearch(GPT-4V)显著优于其他模型,包括最先进的MLLMs和商业生成搜索引擎。Qwen-VL-Chat基础的OmniSearch甚至超过了较大的GPT-4V配备的两步启发式mRAG。

  2. be8ef01e9fe78dd97335628a6de27a65.png

  3. 不同领域的性能比较:在大多数领域中,OmniSearch的性能随着领域复杂性的增加而下降。例如,在交通领域,OmniSearch的表现不如基于GPT-4V的方法,主要是由于交通领域的长尾属性。afd982041239c1f0fa2b2fe6d3b7ddde.png

  4. 检索内容的影响:实验表明,检索内容的每一部分都对整体性能有贡献,尤其是图像标题对最终性能的提升最大。

  5. 不同评估指标的一致性:F1-Recall、GPT基础准确性和人类基础准确性三种评估指标之间存在正相关关系,F1-Recall作为自动化指标具有较低的计算成本和更好的可扩展性。

    044c8aa805f2c9d064c42fdcf2738e0f.png

总体结论

这篇论文研究了多模态检索增强生成(mRAG),并提出了自我自适应规划代理OmniSearch,用于解决现有启发式mRAG方法中的刚性问题。通过构建Dyn-VQA数据集并进行广泛的实验,证明了OmniSearch的有效性,并指出了未来研究的方向,包括生成更人性化的搜索逻辑和改进检索技术。


备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群

6ded6a4895b2321b61a3fd30a7158004.png

id:DLNLPer,记得备注呦

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值