MMSearch:新坑来了!多模态大模型也可以作为搜索引擎了?

首篇将多模态llm应用到AI搜索引擎的新工作!

论文:https://arxiv.org/pdf/2409.12959

主页:https://mmsearch.github.io

代码:https://github.com/CaraJ7/MMSearch

数据集:https://huggingface.co/datasets/CaraJ/MMSearch

1、背景

随着大型语言模型(LLMs)的出现,人工智能搜索引擎(如SearchGPT)展示了人类与互联网交互的新范式。然而,当前大多数AI搜索引擎仅限于文本设置,忽视了用户查询的多模态性质和网站信息的文本-图像交错特性。 虽然大型多模态模型(LMMs)最近取得了令人印象深刻的进展,但它们是否能作为AI搜索引擎发挥作用仍未得到充分探索。

为了填补这一研究空白,研究团队提出了MMSEARCH-ENGINE框架和MMSEARCH测试集,并进行了广泛的评估:

  1. MMSEARCH-ENGINE旨在赋予任何LMMs多模态搜索能力。 它不仅支持包含图像的查询,还同时输入文本和视觉的网页信息,确保全面理解网页内容。该框架的工作流程包括问题重构、网页排序和答案总结三个关键步骤,充分利用了LMMs的多模态信息理解能力。

  2. MMSEARCH测试集是首个专门评估LMMs多模态搜索能力的综合性测试集。 它包含300个精心收集的问题,涵盖14个子领域,内容分为新闻和知识两大类。新闻类别聚焦于数据收集时(2024年8月)的最新信息,而知识类别则收集了需要罕见知识才能回答的查询。这种设计确保了测试内容与现有LMMs的训练数据不重叠,从而保证了评估的挑战性和有效性。

  3. 研究团队对多个闭源和开源LMMs进行了广泛的实验和评估。结果显示,GPT-4o在各项任务中表现最为出色。值得注意的是,配备了MMSEARCH-ENGINE的SoTA LMMs在端到端任务中甚至超越了知名的商业产品Perplexity Pro。 然而,我们详尽的错误分析也揭示了当前LMMs在多模态搜索特定任务上的不足,特别是在问题重构和网页排序方面的能力限制了它们正确识别有用网站和提取相关答案的能力。最后,由于多模态搜索本身是一个复杂的任务,我们进行了一个消融实验,在端到端多模态搜索任务上验证了最近由OpenAI o1提出的发现:相比于增大模型结构,推理时的额外计算有更好的性能。

2、关键设计与数据组成

1. MMSearch-Engine框架

MMSEARCH-ENGINE包含三个关键阶段:问题重构、网页排序和答案总结。

a) 在问题重构阶段,LMM需要理解用户的原始查询(可能包含对图像的引用),并将其转化为适合传统搜索引擎的文本查询。为了增强视觉理解能力,使得LMM能充分捕捉到输入的图片中的关键背景信息和人物,系统还集成了Google Lens的图像搜索结果。

b) 在网页排序阶段,系统从搜索引擎API(如DuckDuckGo)获取前K个相关网站,然后让LMM从中选择最具信息量的网站。为了克服LMM的上下文长度限制,系统只提供每个网站的关键信息,包括标题、摘要和网页顶部的截图。

c) 在答案总结阶段,系统对选定的网站进行全面爬取,获取原始文本内容和完整页面截图。为了提高效率,系统会对截图进行裁剪,并使用文本嵌入模型从原始内容中检索出与查询最相关的部分(最多2K个输入Token)。最后,LMM基于这些信息生成答案摘要。

2. MMSearch测试集

MMSearch测试集提供了一个全面的多模态搜索能力评估基准。测试集涵盖了广泛的新闻话题和专业知识领域,以模拟各种用户搜索场景。

测试集中的数据被分为两个领域:新闻和知识。

  • 新闻领域包含从2024年5月到2024年8月的最新信息,确保与现有LMM的训练数据不重叠,这部分作为基准的动态部分。

  • 知识领域则聚焦于特定领域的罕见知识,超出了现有顶级语言模型(如GPT-4或Claude 3.5 Sonnet)的能力范围,构成基准的静态部分。

我们的测试集总共收集了300个查询,分布在14个子领域中。我们的数据收集过程模拟了实际搜索流程。标注者首先提出问题并提供答案,然后给出重构的问题,这个重构的问题用来提交给搜索引擎的API。标注者对搜索结果进行分类,分为有效、不确定和无效三类,并确保至少有一个有效网站。接着,我们从有效网站中随机选择一个获取完整内容,包括全屏的截图和全部的内容。为了保证问题可以被正确回答,另一名标注者需要验证问题的可回答性,从而确保数据质量。

3. 评估标准

评估任务包括四个部分:问题重构、网页排序、答案总结和端到端任务。前三个任务评估LMM在搜索框架中各个阶段的能力,而端到端任务则模拟真实世界的完整搜索场景,依次执行所有三个阶段。这个基准测试的设计旨在全面评估LMM在多模态搜索中的各项能力,从查询生成到结果分析的整个过程都被纳入考量。通过这种方法,可以深入了解LMM在处理复杂、多样化搜索任务时的表现,为进一步改进和优化多模态搜索技术提供有价值的见解。

4. 数据集更新

为确保评估的公平性和时效性,MMSEARCH的新闻领域问题时间跨度从2024年5月1日到8月31日,确保所有测试数据都超出了现有LMM的知识截止日期。随着新模型的发布,数据集会进行动态更新,以维持评估的有效性。

3、实验与结论

我们在MMSearch benchmark上测评了11个现有的LMM,并且对于开源模型,测试了低分辨率以及高分辨率的输入,如下表所示。其中AnyRes表示使用模型提供的高分辨率技术,而LowRes则表示将图片resize到和模型的vision encoder规定的大小。

基于测评,我们得到了如下的发现与结论:

  1. 高分辨率的输入并没有为大部分的LMM带来明显的性能增益。 这一发现与常见的测试集的测试结果是不一致的,说明对于内容的感知并不是当前LMM做不好多模态搜索任务的瓶颈,而是由于在某些其他与搜索相关的能力上有明显的欠缺,比如问题重构与抽取有用的信息。

  2. LMM在问题重构与网页排序能力上有明显的欠缺。 LMM在端到端任务与答案总结任务的性能上有显著的差异,这其实揭示了它们在问题重构和网页排序能力上的普遍不足。根据结果发现,所有模型的摘要任务得分都明显高于端到端任务得分,其中开源模型的差距尤为明显。这种差异主要源于端到端任务对模型前两轮处理能力的依赖。

  3. 闭源与开源LMM模型仍有显著的性能差距。 研究表明,闭源LMM在各项指标上普遍优于开源模型。其中,GPT-4o以62.3%的最高总分展现出卓越的零样本多模态搜索能力。虽然Qwen2-VL-72B在开源模型中表现最佳,但仍落后GPT-4o 9.6个百分点。在最具挑战性的端到端任务中,这一差距进一步扩大到11.3%,对于7B级开源LMM,差距甚至达到20.1%。

  4. MMSearch-Engine在端到端任务中超越了商业AI搜索引擎Perplexity Pro。 尽管Perplexity Pro使用了如GPT-4和Claude 3.5 Sonnet等先进的大型语言模型,但在相同模型的配置下,其性能仍然明显落后于MMSEARCH-ENGINE。更为显著的是,MMSEARCH-ENGINE甚至在使用开源的Qwen2-VL-72B模型时也能超越Perplexity Pro。这一发现突显了MMSEARCH-ENGINE作为开源多模态AI搜索引擎方案的潜力。 研究者发现Perplexity表现不佳的原因可能在于其仅使用了基础的图像搜索算法,导致无法准确识别图像中的关键对象并检索相关信息。

最后,利用我们的端到端的多模态搜索的任务,我们进行了初步的扩展测试时的计算和扩大模型规模的比较的研究。实验使用了LLaVA-OneVision-7B模型来测试扩展测试时计算的效果,并与扩展模型规模的LLaVA-OneVision-72B进行对比。研究采用了类似于"best-of-N"的多模态搜索策略,其中N设为25。具体步骤请见原论文。

结果显示,通过扩展测试时计算,LLaVA-OneVision-7B的端到端任务得分从29.6%显著提升至55.2%,超过了LLaVA-OneVision-72B的44.9%和GPT-4V的52.1%。这一发现凸显了扩展测试时计算的巨大潜力,验证了OpenAI o1引入的这一技术的有效性。

读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓
在这里插入图片描述

👉AI大模型学习路线汇总👈

大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
在这里插入图片描述
在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值