直接拿大模型当搜索页(SERP)会怎样？-CSDN博客

本文链接：https://blog.csdn.net/Jina_AI/article/details/145942024

在 Deep(Re)Search 和那些依赖外部搜索 RAG 系统中，一个头疼的事是：如何判断当前的问题能否该由 LLM 直接作答，还是必须搜索外部信息才能解决？常见的实现都是通过提示词进行路由。而这篇文章给出了一个奇妙的方法——把大模型直接当做 SERP（Search Engine Results Page，搜索引擎结果页）——或超级靠谱或离了大谱。但看到最后，你可能会有所悟。

反其道而行模型即搜索

自检索增强生成 (RAG) 技术兴起后，利用大型语言模型 (LLM) 改进搜索已成为行业共识。从 Perplexity 到 DeepSearch 和 DeepResearch，将搜索引擎结果融入 LLM 的内容生成过程已是业内普遍做法。

很多用户表示，现在已经不怎么用 Google 了，觉得传统的翻页搜索既麻烦又过时。相比之下，他们更喜欢聊天式的搜索界面，能够直接给出高精度、高召回率的结果，这似乎也代表了搜索的未来发展方向。

那么，直接拿大模型当搜索页(SERP)会怎样？

你可以像使用 Google 一样探索 LLM 内部蕴藏的知识，同样可以分页、点击链接，所有你熟悉的传统搜索元素都不少。但这一切完全由 AI 生成。 如果这个概念还不够直观，请先查看下方的演示。

标题、链接、摘要都由 LLM 生成。可以直接访问 jina.ai/llm-serp-demo 实际体验。

这个想法靠谱吗？

在大牛们纷纷举起手来要发表幻觉问题之前，我们先来给刚入门的小白们解释一下为什么这个思路不是 那么的 离谱。

首先是海量的知识储备，LLM 是在海量的网络知识库上训练的，已经“记住”了大量的互联网信息。例如，DeepSeek-R1、GPT-4、Claude-3.7 和 Gemini-2.0 等模型，都接受过来自公共互联网的数万亿 token 的训练。

其次是可观的数据覆盖率，粗略估计，领先的 LLM 已经学习了 1% 到约 5% 的高质量、公开可访问的网络文本。这个比例乍看似乎不高，但如果以 Google 的索引作为基准（视作世界上 100% 的用户可访问数据），那么 LLM 已经相当于一个小型搜索引擎所能提供的数据量了。

搜索引擎	数据覆盖率 (以 Google 为 100%)
Google	100%
Bing	30-50%
百度	5-10%
Yandex	3-5%
Brave Search	<1%
LLM (预估值)	1-5% (高质量数据)

最后是记忆激活机制：我们可以通过巧妙的 Prompt Engineering (提示词工程)，激活 LLM 的记忆，让他们能够像搜索引擎一样运行，并生成类似搜索引擎结果页 (SERP) 的结果。

诚然，LLM 作为 SERP 也面临着一些挑战，其中最突出的仍然是幻觉问题，即模型可能会生成不实或不准确的信息。但我们有理由相信，随着模型架构的不断演进和训练数据的日益丰富，幻觉问题终将得到缓解。正如在 X/Twitter 上，大家热衷于使用最新发布的 LLM 生成 SVG 图像，并亲眼见证生成质量不断提高一样，我们也对 LLM 理解数字世界的能力抱有同样的期待。

Aidan McLaughlin 展示了随着时间推移，GPT 在一步到位生成 SVG 自画像方面的能力是如何不断提升的。

知识截止日期是 LLM as SERP 的另一个重要局限。 理想的搜索引擎应该能够提供近乎实时的信息，但由于 LLM 权重在训练后被冻结，无法提供超出其截止日期的准确信息。

一般来说，查询越接近这个截止日期，就越容易出现幻觉。较早的信息可能已经被反复引用和修正，因此在训练数据中占据了更大的比重。（这里我们假设信息权重分配是均匀分布的，但实际情况中，突发的大新闻和头条们，即便离知识截止时间较近，也可能因其反复的曝光而在训练预料中获得高权重。）

但反过来说，这个局限恰恰启发了我们对他的应用场景：它可以被巧妙的用在回答模型知识范围内的问题。相当于我们打了个赌，赌用户的问题（或 DeepSearch 中的过渡问题）落不落在模型的知识截止日期之前，如果落在截止之内，且模型性能比较好（参考上面提到的 SVG 生成图片的例子），那么这个回答就是更有可能是正确的。如果落在截止时间之后，那么这个回答错误的可能性就要高一些。

LLM as SERP 究竟有何用？

在 DeepSearch/RAG 或任何依赖外部信息的系统中，一个绕不开的问题是：如何判断当前的问题能否通过 LLM 自身的知识来解答，还是必须借助外部信息才能解决？ 目前常见的做法是采用基于提示词的路由策略，并配合类似这样的提示词：

- 对于问候、闲聊或常识性问题，直接回答，无需检索外部信息。
- 对于其他问题，提供基于外部知识验证过的答案，并给出精确引用 (exactQuote) 和对应网址 (url) 作为参考文献。

然而，这种方法也难免有所疏漏：有时会不必要地触发搜索，有时又会遗漏关键的信息需求。特别是一些较新的推理模型，往往要等到生成过程过半，才能判断是否需要外部数据。

那么，如果一开始就不分青红皂白的搜索呢？

我们可以同时调用真实的搜索引擎 API 和 LLM as SERP。这样就避免了前期进行路由决策的麻烦，可以把决策推迟到下游。在后续环节里，我们可以直接比较两者的结果：一边是来自真实搜索的最新数据，一边是 LLM 训练截止日期内的知识以及可能存在的偏差信息。

LLM-SERP 提供的搜索结果，会混合真实知识和虚构信息（也就是“幻觉”）。由于真实的搜索引擎提供的是基于事实的内容，加上 LLM 提供的半真实半虚构内容，总体来说，真实内容的占比会更高一些，所以后续的推理步骤就可以自然地偏重真实知识。

下一步 LLM 可以通过简单的总结来找出结果之间的矛盾和共识，并根据信息源的新鲜度、可靠性，来归纳真实信息。归纳总结这件事情，这种事情本来就是 LLM 的优势所在，所以我们无需将这些复杂的逻辑硬编码到提示词里。

当然，我们还能借助 Jina Reader 访问每个搜索结果的网址，通过访问网页来核实信息。这一步验证无论如何都省不掉，千万别只看搜索引擎提供的摘要，不管这个搜索引擎是真是假。

结论

通过使用 LLM as SERP，我们将“这是否在模型的知识范围内？”的二元问题转化为更可靠的证据加权过程。这样就避免了在 DeepSearch 系统中通过前置系统提示词来路由的需求。当然这个应用场景的假设逻辑链为：

大模型的训练预料相当于一个小型高质量搜索引擎。
大模型随着不断地发展，幻觉问题会减轻。而知识截止和幻觉问题相对独立，即一个完美的大模型，回答那些落在知识截止时间之前的问题应该零幻觉。在回答那些落在知识截止时间之后的问题，才会出现幻觉。
网上的信息也是亦真亦假，大模型的信息也是亦真亦假。
在做搜索接地时(Search Grounding) 我们无需过度担心真假带来的问题，而只需要考虑召回率即可。总结的事情，即提升 Precision（精准率）的事情留给大模型去做。

我们提供了一个在线 demo 以及 API，欢迎大家亲自体验和测试。你也可以将其集成到自己的 DeepSearch/DeepResearch 项目中，看看是否能带来性能上的提升。