1. 背景
传统的搜索引擎主要只处理文本,因此很难充分搜索和处理图像与文本相结合的信息。例如,网站通常会显示图像和文本的复杂交集,但目前的人工智能搜索引擎无法有效处理此类内容。
为了解决这个问题,研究人员开发了一个名为 MMSEARCH-ENGINE 的系统。该系统旨在提供可应用于任何 LMM 的多模式搜索功能。它能让 LMM 响应更复杂的搜索要求,利用图像信息和文本搜索。实际的网络搜索过程涉及一系列步骤,包括将用户问题转换成更适合搜索引擎的格式,对搜索结果进行重新评估和排序,最后以摘要的形式呈现这些信息。
该系统的所有步骤都由 LMM 完成,其最终目的是提供更准确、更相关的信息。
2. 建议方法
本文提出的方法是 MMSEARCH-ENGINE,它侧重于将 LMM 作为多模态搜索引擎。
MMSEARCH-ENGINE 是一个为 LMM 增加多模态搜索功能而开发的框架,可以同时处理图像和文本信息。该系统首先要将用户的查询(搜索请求)重新转换(Requery)为合适的格式。在很多情况下,用户输入的查询可能并不适合搜索引擎,因此 LMM 会对查询进行优化。接下来,对搜索结果中最相关的网站进行重新排名(Rerank),最后根据这些信息进行总结(Summarisation)。
该 MMSEARCH-ENGINE 能够整合并处理视觉和文本信息,特别是通过使用 Google Lens 从图像中提取信息,以及通过截取网站截图并将其传递给 LMM,从而使视觉线索也成为搜索过程的一部分。这样,视觉线索也成为搜索过程的一部分。这样,即使用户的查询包括图片,也能根据图片内容提供更准确的搜索结果。
此外,还建立了一个基准 MMSEARCH 来评估该方法。它使用人工收集的 300 个查询来衡量 LMM 的多模态搜索能力。这些查询涵盖了最新新闻和专业知识领域,每个查询都包含图像和文本信息相结合的复杂内容。
3.试验
本文使用多个大规模多模态模型(LMM)进行了实验评估,以验证所提出的 MMSEARCH-ENGINE 方法。实验使用封闭式 LMM(如 GPT-4V 和 Claude 3.5 Sonnet)和开源 LMM(如 Qwen2-VL-7B 和 LLaVA-OneVision)测量了所提方法的性能。
实验涉及三大核心任务。它们分别是 “Requery”、"Rerank "和 “Summarisation”。首先,"Requery "任务将用户的查询转换成适合搜索引擎的格式,然后是 "Rerank "任务,即根据从多个网站检索到的信息选择最相关的信息。最后,执行总结任务,从选定的信息中提取适当的答案。
除了这三项任务外,还进行了 "端到端 "评估,该评估贯穿所有步骤。端到端 "任务衡量的是整个系统为用户查询提供结果的准确度,模拟的场景与实际使用情况最为接近。
结果,GPT-4o 在闭源 LMM 中表现最佳,而开源的 Qwen2-VL-72B 也表现出色。特别值得注意的是,所提出的方法的性能优于商业人工智能搜索引擎 Perplexity Pro。这表明,与现有系统相比,MMSEARCH-ENGINE 具有更出色的多模态搜索能力。
实验结果还凸显了模型在 Requery 和 Rerank 部分的弱点,表明这些任务需要改进,尤其是开源模型。另一方面,许多模型在 "总结 "任务中表现出了相对较高的性能,这证明了它们总结提取信息的能力很强。
4.结论
本文的结论表明,提议的 MMSEARCH-ENGINE 在当前的多模态搜索中大有可为。大规模多模态模型(LMM)的使用证实了它有能力有效处理包括图像和文本在内的复杂查询。
所提方法的另一个缺点是,目前的 LMM 在 Requery 和 Rerank 任务中没有足够的准确性。提高这些任务的性能是未来的挑战,而进一步的改进将大大提高 LMM 在多模态搜索中的性能。
4.1图表说明
该图显示了多学科问题及其答案,并提供了一个如何评估 MMSearch 系统功能的示例。
图中的问题主要与新闻和知识有关,并按类别进行了细分。首先,与新闻相关的问题分为六类:金融、体育、科学、娱乐、综合和错误假设。在每个类别中,都给出了具体的例题及其答案。例如,在 "金融 "部分,有一个关于公司股价的问题。
接下来,知识部分分为六个类别:天文、汽车、时尚、艺术、建筑和动画。其中,