独家｜为什么谷歌的“AI概述”会出错？-CSDN博客

作者：Rihannon Williams 2024年5月31日 发表于 MIT Technology Review

翻译：高翊之
校对：ZRX

本文约2500字，建议阅读6分钟
为什么AI概述会返回不可靠、潜在危险的信息？如果有办法的话，应该如何修复呢？‍

谷歌新的人工智能搜索功能一团糟。它为什么叫我们去“吃石头和胶水比萨”，以及这个问题可以修复吗？

当谷歌在本月初宣布推出人工智能驱动的搜索功能时，公司承诺“谷歌会为你搜索”。这项叫做AI概述的新功能在搜索结果的上方提供了简短的、AI生成的概要，突出关键的信息和链接。

不幸的是，AI系统本质上是不可靠的。AI概述在美国发布的几天内，用户就分享了一些奇怪甚至更糟的回应，例如它建议用户在披萨上加胶水、每天至少吃一块小石头，以及它声称美国前总统安德鲁·约翰逊在1947到2012年间获得了大学学位，尽管他在1875年就去世了。

周四，谷歌搜索的负责人利兹·里德宣布，为降低生成错误答案的可能性，公司一直在对系统做技术改进，包括改进对无意义查询的检测机制。它同时也在限制回应中出现讽刺、幽默和用户生成的内容，因为这些材料可能会带来误导性的建议。

但是为什么AI概述会返回不可靠、潜在危险的信息？如果有办法的话，应该如何修复呢？

AI概述如何运作？

为了理解为什么AI驱动的搜索引擎会出错，我们需要审视它们是如何被优化来运作的。我们知道，AI概述运用了Gemini中的一个新型生成式AI模型。作为谷歌大语言模型（LLMs）家族中的一员，它专门为谷歌搜索量身定制。这个模型已经被嵌入到了谷歌的核心网页排名系统中，被设计用来从网页索引中提取相关结果。

大多数LLMs只是预测序列中的下一个词（或是词元），这让它们看起来更流畅，但也容易编造内容。它们没有可以依靠的事实，而是单纯依据统计计算来选择每个词。这导致了幻觉。“AI概述中的Gemini模型可能通过一种叫做检索增强生成（RAG）的AI技术来解决这个问题。这项技术允许一个LLM检查训练数据之外的特定来源，比如说特定的网页。”在华盛顿大学专门从事在线搜索的Chirag Shah教授说。

当用户输入一个查询，系统可以将它与构成其信息来源的文档比对检查，并生成一个回应。因为这个系统可以将原始查询与网页的特定部分匹配，它能够引用它得到答案的来源——这是普通LLMs无法做到的。

RAG的一个主要优势是：相比于一个只根据训练数据生成答案的典型模型，它对用户查询生成的回应能更新、更与事实相符、更相关。这个技术常被用来防止LLMs产生幻觉。（一位谷歌的发言人没有确认AI概述是否使用了RAG）。

所以它为什么会返回错误的答案？

但是RAG远非万无一失。为了让一个使用RAG的LLM得出好的答案，它必须既能正确地检索信息，也能正确地生成回应。当其中一个或两个过程失败时，就会得“AI概述建议了一个加胶水的比萨食谱——来源于一个发表在Reddit上的笑话。在这个例子中，对于奶酪不粘在披萨上的用户原始查询来说，帖子可能看起来是相关的。但是检索过程出现了问题，”Shah说：“仅仅相关不代表是正确的，并且过程中的生成部分不会质疑这点。”

类似地，如果一个RAG系统遇到了相互矛盾的信息，比如说一本政策手册或是同一本手册的更新版本，它不能确定用哪一版生成回应。它反而会将两者的信息结合起来，创造一个可能具有误导性的答案。

“大语言模型根据提供的来源生成流畅的语言，但流畅的语言并不等同于正确的信息，”在莱顿大学专门从事自然语言处理的Suzan Verberne教授说。

话题越具体，大语言模型输出中出现错误信息的概率就越高，她补充道：“这是医学领域的一个问题，在教育和科学领域也同样存在。”

根据谷歌的发言人所说，在许多情况下，AI概述返回错误答案是因为网络上没有许多高质量的信息可供查询，或是因为查询匹配到最匹配的是讽刺性的网站或是玩笑帖子。

发言人称AI概述绝大多数情况能提供高质量的信息，许多糟糕答案的例子是为了回应不常见的查询，并补充说AI概述在每700万个不同查询中才会出现不到一个带有可能有害、淫秽，或是其它不可接受的内容。根据内容政策，谷歌正持续移除特定查询的AI概述。

这不仅仅是因为糟糕的训练数据

尽管胶水比萨的错误是个AI概述指向不可靠来源的好例子，系统也会从事实上正确的来源中生成错误信息。梅兰妮·米切尔，一位新墨西哥圣菲研究所的人工智能研究员，在谷歌上搜索了“美国有过多少位穆斯林总统？”AI概述回应道：“美国有过一位穆斯林总统，贝拉克·侯赛因·奥巴马。”

尽管贝拉克·奥巴马不是穆斯林，这使AI概述的答案是错误的，它从一本名为《贝拉克·侯赛因·奥巴马：美国第一位穆斯林总统》的学术书籍中的一个章节汲取了信息。所以AI系统不仅错过了书中的全部要点，而且以完全相反的方式进行解读，米切尔说。“这里AI有几个问题；一个是找到一个不是笑话的好来源，另一个是正确地解释这个来源在说什么，”她补充道。“这是AI有问题的地方，重要的是即使它确实找到了一个好来源，它仍然会犯错。”

问题可以被修复吗？

最终，我们知道AI系统是不可靠的，并且只要它们继续用概率逐词生成文本，幻觉始终会是个问题。尽管随着谷歌在幕后微调，AI概述可能有所改善，但我们永远无法确定它会100%正确。

谷歌称，对于那些AI概述没有特别有帮助的查询，会增加限制，并且已经为健康相关的查询添加了额外的“触发改进”。公司可以在信息检索的过程添加一个步骤，用来标记一个有风险的查询，并在这些情形中让系统拒绝生成答案，Verberne说。谷歌并不打算在清楚明白，或是危险的话题上展示AI概述，或是对一些表明处于弱势情形的查询展示，公司的发言人说。

比如说从人类反馈中进行强化学习的技术，将这类反馈也纳入到了一个LLM的训练中，也有助于改善答案的质量。

类似地，LLM也可以被专门训练，来识别何时不能回答一个问题。并且指示它们在生成答案前仔细评估检索文档的质量也是有用的，Verbene说：“合适的指导很有帮助！”

尽管谷歌已经给AI概述的答案添加了一个标签：“生成式AI是实验性的”，它应当考虑更清晰地说明这个功能处于实验阶段，并且强调它还没有准备好提供完整可靠的答案，Shah说。“在它还是测试版的时候——它现在肯定是，在未来一段时间也都是——它应当是完全可选的。它不应作为核心搜索的一部分强加给我们。”