人工智能的错误与人类的错误有很大不同-CSDN博客

ISTOCK

来源：IEEE电气电子工程师学会

人类总是会犯错。我们所有人每天在新任务和日常任务中都会犯错。其中一些可能是小错误，而有一些则是灾难性的。错误会破坏我们与朋友之间的信任，会让老板失去对我们的信心，有时还会成为生死攸关的差别。

数千年来，我们创建了安全体系来应对人类常犯的各类错误。如今，赌场会定期轮换发牌员，因为如果他们长时间做同一项工作就会出错。医院工作人员在手术前会在肢体上做标记，这样医生就会在正确的身体部位进行手术，而且他们会清点手术器械以确保没有器械遗留在体内。从文字校对到复式记账再到上诉法院，我们人类已经非常擅长纠正人类的错误了。

人类现在正在迅速将一种完全不同类型的犯错者融入社会：人工智能。像大型语言模型（LLMs）这样的技术能够执行许多传统上由人类完成的认知任务，但它们也会犯很多错误。当聊天机器人告诉你吃石头或者在披萨上加胶水时，这看起来很荒谬。但将人工智能系统的错误与人类错误区分开来的并非其错误的频率或严重程度，而是其怪异之处。人工智能系统犯错的方式与人类不同。

我们使用人工智能所带来的许多摩擦和风险都源于这种差异（https://spectrum.ieee.org/tag/security）。我们需要创造新的安全系统来适应这些差异并防止人工智能错误带来危害。

人类错误vs人工智能错误

生活经验让我们每个人都能相当容易地猜到人类会在何时何地犯错。人类的错误往往出现在某人知识的边缘：我们大多数人在解微积分问题时都会出错。我们预计人类的错误是集中出现的：一个微积分错误很可能伴随着其他错误。我们预计错误会有起有伏，可预见地取决于疲劳和分心等因素。而且错误往往伴随着无知：一个在微积分上犯错的人也很可能会对与微积分相关的问题回答“我不知道”。

就人工智能系统犯这些类人类错误的程度而言，我们可以运用我们所有的纠错系统来处理它们的输出。但当前这批人工智能模型——特别是大型语言模型（LLMs）——犯错的方式有所不同。

人工智能的错误似乎是随机出现的，不会集中在特定的话题上。大型语言模型（LLM）的错误往往在知识领域中分布得更为均匀。一个模型在微积分问题上出错的可能性，可能与它提出卷心菜吃山羊这种说法的可能性一样大。

而且人工智能的错误并不伴随着无知。一个大型语言模型在说出完全错误（而且对人类来说显然是错误）的话时，会和说出正确的话时一样自信。大型语言模型这种看似随机的不一致性，使得人们很难相信它们在复杂的多步骤问题中的推理。如果你想要使用一个人工智能模型来解决商业问题，仅仅看到它理解哪些因素能使产品盈利是不够的；你需要确保它不会忘记货币是什么。

如何应对人工智能错误

这种情况表明了两个可能的研究领域。第一个是设计出会犯更类人错误的大型语言模型（LLMs）。第二个是构建新的纠错系统，以处理大型语言模型往往会犯的特定类型的错误。

我们已经有了一些工具来引导大型语言模型以更类人的方式行事。其中许多工具源于“对齐”研究领域，该领域旨在使模型按照人类开发者的目标和动机行事（https://arxiv.org/abs/2406.18346）。一个例子是可以说是让ChatGPT取得突破性成功的技术：人类反馈强化学习（https://arxiv.org/abs/2203.02155）。在这种方法中，人工智能模型（比喻性地）会因生成得到人类评估者点赞的回复而得到奖励。类似的方法可用于诱导人工智能系统犯更类人的错误，特别是通过对那些较难理解的错误给予更多惩罚。

在捕捉人工智能错误方面，我们用于预防人类错误的一些系统会有所帮助。在一定程度上，迫使大型语言模型（LLMs）对自己的工作进行复核有助于防止错误。但是，大型语言模型也会为自己脱离理性的行为编造看似合理但实则荒谬的解释。

其他针对人工智能的错误缓解系统与我们用于人类的系统完全不同。因为机器不会像人类那样疲劳或沮丧，所以以稍有不同的方式反复向大型语言模型（LLM）提问，然后综合其多个回答是有帮助的。人类不会忍受那种恼人的重复，但机器会（https://arxiv.org/abs/2210.02441）。

理解相似点与不同点

研究人员仍在努力弄清楚大型语言模型（LLM）的错误在哪些方面与人类的错误不同。人工智能的某些怪异之处实际上比乍看起来更像人类。对大型语言模型的查询稍作改变就可能导致截然不同的回应，这一问题被称为提示敏感性。但是，任何调查研究人员都会告诉你，人类也是如此。民意调查中的问题措辞会对答案产生巨大影响（https://psycnet.apa.org/record/1992-97329-001）。

大型语言模型（LLMs）似乎也偏向于重复其训练数据中最常见的词汇；例如，即使被问及更具异域风情的地点时，也会猜测像“美国”这样熟悉的地名。也许这是人类的“可得性启发法”在大型语言模型中的体现，机器会说出最先想到的东西，而不是通过问题进行推理（https://arxiv.org/pdf/2305.04400）。而且，也许像人类一样，一些大型语言模型在处理长篇文档时似乎会分心；它们更能记住开头和结尾的事实。在改进这种错误模式方面已经有了进展，因为研究人员发现，经过更多从长篇文本中检索信息的示例训练的大型语言模型，在统一检索信息方面似乎表现得更好（https://www.anthropic.com/news/claude-2-1-prompting）。

在某些情况下，大型语言模型（LLMs）的怪异之处在于它们比我们认为的更像人类。例如，一些研究人员测试了这样一个假设：当给予现金奖励或受到死亡威胁时，大型语言模型会表现得更好。结果还表明，一些对大型语言模型进行“越狱”（让它们违背创建者的明确指令，https://www.usenix.org/system/files/sec24fall-prepub-1500-yu-zhiyuan.pdf）的最佳方法看起来很像人类彼此使用的那种社会工程学诡计：例如，假装成别人或者说这个请求只是个玩笑。但其他有效的“越狱”技术是人类永远不会上当的。一个研究小组发现，如果他们使用ASCII艺术（由看起来像文字或图片的符号构成）来提出危险问题，比如如何制造炸弹，大型语言模型就会乐意回答。

人类可能偶尔会犯看似随机、不可理解且前后矛盾的错误，但这种情况很少见，而且往往预示着更严重的问题。我们通常也不会让有这些行为表现的人处于决策岗位。同样，我们应该将人工智能决策系统限制在适合其实际能力的应用场景中——同时牢牢记住其错误可能产生的潜在影响。

阅读最新前沿科技趋势报告，请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

未来知识库是“欧米伽未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828 进入。