独家 | 为什么谷歌的“AI概述”会出错?

0aaf1f0c7045aede7eb980923442d958.png

作者:Rihannon Williams 2024年5月31日 发表于 MIT Technology Review

翻译:高翊之
校对:ZRX

本文约2500字,建议阅读6分钟
为什么AI概述会返回不可靠、潜在危险的信息?如果有办法的话,应该如何修复呢?‍

谷歌新的人工智能搜索功能一团糟。它为什么叫我们去“吃石头和胶水比萨”,以及这个问题可以修复吗?

4dbe00718dc51bea9cc77325a712cc7c.jpeg

当谷歌在本月初宣布推出人工智能驱动的搜索功能时,公司承诺“谷歌会为你搜索”。这项叫做AI概述的新功能在搜索结果的上方提供了简短的、AI生成的概要,突出关键的信息和链接。   

不幸的是,AI系统本质上是不可靠的。AI概述在美国发布的几天内,用户就分享了一些奇怪甚至更糟的回应,例如它建议用户在披萨上加胶水、每天至少吃一块小石头,以及它声称美国前总统安德鲁·约翰逊在1947到2012年间获得了大学学位,尽管他在1875年就去世了。

周四,谷歌搜索的负责人利兹·里德宣布,为降低生成错误答案的可能性,公司一直在对系统做技术改进,包括改进对无意义查询的检测机制。它同时也在限制回应中出现讽刺、幽默和用户生成的内容,因为这些材料可能会带来误导性的建议。

但是为什么AI概述会返回不可靠、潜在危险的信息?如果有办法的话,应该如何修复呢?

AI概述如何运作?

为了理解为什么AI驱动的搜索引擎会出错,我们需要审视它们是如何被优化来运作的。我们知道,AI概述运用了Gemini中的一个新型生成式AI模型。作为谷歌大语言模型(LLMs)家族中的一员,它专门为谷歌搜索量身定制。这个模型已经被嵌入到了谷歌的核心网页排名系统中,被设计用来从网页索引中提取相关结果。

大多数LLMs只是预测序列中的下一个词(或是词元),这让它们看起来更流畅,但也容易编造内容。它们没有可以依靠的事实,而是单纯依据统计计算来选择每个词。这导致了幻觉。“AI概述中的Gemini模型可能通过一种叫做检索增强生成(RAG)的AI技术来解决这个问题。这项技术允许一个LLM检查训练数据之外的特定来源,比如说特定的网页。”在华盛顿大学专门从事在线搜索的Chirag Shah教授说。

当用户输入一个查询,系统可以将它与构成其信息来源的文档比对检查,并生成一个回应。因为这个系统可以将原始查询与网页的特定部分匹配,它能够引用它得到答案的来源——这是普通LLMs无法做到的。

RAG的一个主要优势是:相比于一个只根据训练数据生成答案的典型模型,它对用户查询生成的回应能更新、更与事实相符、更相关。这个技术常被用来防止LLMs产生幻觉。(一位谷歌的发言人没有确认AI概述是否使用了RAG)。

所以它为什么会返回错误的答案?

但是RAG远非万无一失。为了让一个使用RAG的LLM得出好的答案,它必须既能正确地检索信息,也能正确地生成回应。当其中一个或两个过程失败时,就会得“AI概述建议了一个加胶水的比萨食谱——来源于一个发表在Reddit上的笑话。在这个例子中,对于奶酪不粘在披萨上的用户原始查询来说,帖子可能看起来是相关的。但是检索过程出现了问题,”Shah说:“仅仅相关不代表是正确的,并且过程中的生成部分不会质疑这点。”

类似地,如果一个RAG系统遇到了相互矛盾的信息,比如说一本政策手册或是同一本手册的更新版本,它不能确定用哪一版生成回应。它反而会将两者的信息结合起来,创造一个可能具有误导性的答案。

“大语言模型根据提供的来源生成流畅的语言,但流畅的语言并不等同于正确的信息,”在莱顿大学专门从事自然语言处理的Suzan Verberne教授说。

话题越具体,大语言模型输出中出现错误信息的概率就越高,她补充道:“这是医学领域的一个问题,在教育和科学领域也同样存在。”

根据谷歌的发言人所说,在许多情况下,AI概述返回错误答案是因为网络上没有许多高质量的信息可供查询,或是因为查询匹配到最匹配的是讽刺性的网站或是玩笑帖子。

发言人称AI概述绝大多数情况能提供高质量的信息,许多糟糕答案的例子是为了回应不常见的查询,并补充说AI概述在每700万个不同查询中才会出现不到一个带有可能有害、淫秽,或是其它不可接受的内容。根据内容政策,谷歌正持续移除特定查询的AI概述。

这不仅仅是因为糟糕的训练数据

尽管胶水比萨的错误是个AI概述指向不可靠来源的好例子,系统也会从事实上正确的来源中生成错误信息。梅兰妮·米切尔,一位新墨西哥圣菲研究所的人工智能研究员,在谷歌上搜索了“美国有过多少位穆斯林总统?”AI概述回应道:“美国有过一位穆斯林总统,贝拉克·侯赛因·奥巴马。”

尽管贝拉克·奥巴马不是穆斯林,这使AI概述的答案是错误的,它从一本名为《贝拉克·侯赛因·奥巴马:美国第一位穆斯林总统》的学术书籍中的一个章节汲取了信息。所以AI系统不仅错过了书中的全部要点,而且以完全相反的方式进行解读,米切尔说。“这里AI有几个问题;一个是找到一个不是笑话的好来源,另一个是正确地解释这个来源在说什么,”她补充道。“这是AI有问题的地方,重要的是即使它确实找到了一个好来源,它仍然会犯错。”

问题可以被修复吗?

最终,我们知道AI系统是不可靠的,并且只要它们继续用概率逐词生成文本,幻觉始终会是个问题。尽管随着谷歌在幕后微调,AI概述可能有所改善,但我们永远无法确定它会100%正确。    

谷歌称,对于那些AI概述没有特别有帮助的查询,会增加限制,并且已经为健康相关的查询添加了额外的“触发改进”。公司可以在信息检索的过程添加一个步骤,用来标记一个有风险的查询,并在这些情形中让系统拒绝生成答案,Verberne说。谷歌并不打算在清楚明白,或是危险的话题上展示AI概述,或是对一些表明处于弱势情形的查询展示,公司的发言人说。

比如说从人类反馈中进行强化学习的技术,将这类反馈也纳入到了一个LLM的训练中,也有助于改善答案的质量。

类似地,LLM也可以被专门训练,来识别何时不能回答一个问题。并且指示它们在生成答案前仔细评估检索文档的质量也是有用的,Verbene说:“合适的指导很有帮助!”

尽管谷歌已经给AI概述的答案添加了一个标签:“生成式AI是实验性的”,它应当考虑更清晰地说明这个功能处于实验阶段,并且强调它还没有准备好提供完整可靠的答案,Shah说。“在它还是测试版的时候——它现在肯定是,在未来一段时间也都是——它应当是完全可选的。它不应作为核心搜索的一部分强加给我们。”

原文标题:

Why Google’s AI Overviews gets things wrong  

原文链接:

https://www.technologyreview.com/2024/05/31/1093019/why-are-googles-ai-overviews-results-so-bad/

编辑:王菁

‍‍‍‍

译者简介

090a27eb55cd76b8f25f7a6355606656.jpeg

高翊之,清华大学本科在读,喜欢数据科学人工智能相关方向,日常热爱运动与艺术,期待在数据派的大家庭里尽一份绵薄之力,共同探索数据的广泛应用~

翻译组招募信息

工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,THU数据派产学研的背景为志愿者带来好的发展机遇。

其他福利:来自于名企的数据科学工作者,北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。

点击文末“阅读原文”加入数据派团队~

转载须知

如需转载,请在开篇显著位置注明作者和出处(转自:数据派ID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。

c81ca36d9cbec9cf70e28fd69b866875.png

点击“阅读原文”拥抱组织

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值