OpenAI 科学家：幻觉是大模型与生俱来的特性，而非缺陷

最新推荐文章于 2024-05-23 07:25:56 发布

瓦罗兰特顶级C位

最新推荐文章于 2024-05-23 07:25:56 发布

阅读量710

点赞数 13

文章标签： chatgpt AIGC 人工智能 web安全大模型 LLM OpenAI

本文链接：https://blog.csdn.net/Wufjsjjx/article/details/138653453

版权

幻觉，早已成为 LLM 老生常谈的问题。

然而，OpenAI 科学家 Andrej Karpathy 今早关于大模型幻觉的解释，观点惊人，掀起非常激烈的讨论。

在 Karpathy 看来：

从某种意义上说，大语言模型的全部工作恰恰就是制造幻觉，大模型就是「造梦机」。

另外，Karpathy 的另一句话，更是被许多人奉为经典。他认为，与大模型相对的另一个极端，便是搜索引擎。

「大模型 100% 在做梦，因此存在幻觉问题。搜索引擎则是完全不做梦，因此存在创造力问题」。

总而言之，LLM 不存在「幻觉问题」。而且幻觉不是错误，而是 LLM 最大的特点。只有大模型助手存在幻觉问题。

对此，英伟达高级科学家 Jim Fan 分享了自己的看法，「令人着迷的是，最好的 LLM 可以通过切换到『工具使用模式』来『决定』何时做梦，何时不做梦。网络搜索是一种工具。LLM 可以动态调整自己的『dream% 超参数』。GPT-4 试图做到这一点，但远非完美」。

亚利桑那州立大学的教授 Subbarao Kambhampati 也跟帖回复了 Karpathy：

LLM 一直在产生幻觉，只是有时他们的幻觉碰巧和你的现实一致而已。

而提问者是否能够让幻觉和自己的现实一致，很大程度取决于提问者自己对产生内容的检查能力。

基于这个认知，他认为，所有想要将 LLM 的能力拟人化的尝试都只是人类的一厢情愿，将思考、想法、推理和自我批评等拟人化概念强加在 LLM 上都是徒劳的。

人类应该在认清 LLM 能力的本质基础之上，将它当作一个「补充人类认知的矫正器」，而不是潜在的替代人类智能的工具。

当然，讨论这种问题的场合永远少不了马老板的身影：「人生不过就是一场梦」。

感觉下一句他就要说，我们也只是生活在矩阵模拟之中😂😂

Karpathy：LLM 不存在「幻觉问题」，LLM 助手才有

对于大模型饱受诟病的幻觉问题，Karpathy 具体是如何看的呢？

我们用「提示」来引导这些「梦」，也正是「提示」开启了梦境，而大语言模型依据对其训练文档的模糊记忆，大部分情况下都能引导梦境走向有价值的方向。

只有当这些梦境进入被认为与事实不符的领域时，我们才会将其称为「幻觉」。这看起来像是一个错误，但其实只是 LLM 本就擅长的事情。

再来看一个极端的例子：搜索引擎。它根据输入的提示，直接返回其数据库中最相似的「训练文档」，一字不差。可以说，这个搜索引擎存在「创造力问题」，即它永远不会提供新的回应。

「大模型 100% 在做梦，因此存在幻觉问题。搜索引擎则是完全不做梦，因此存在创造力问题」。

说了这么多，我明白人们「真正」关心的是，不希望 LLM 助手（ChatGPT 等产品）产生幻觉。大语言模型助手远比单纯的语言模型复杂得多，即使语言模型是其核心。

有很多方法可以减轻 AI 系统的幻觉：使用检索增强生成（RAG），通过上下文学些将做梦更准确回溯在真实数据上，这可能是最常见的一种方法。另外，多个样本之间的不一致性、反思、验证链；从激活状态中解码不确定性；工具使用等等，都是热门且有趣的研究领域。

总之，虽然可能有些吹毛求疵，，但 LLM 本身不存在「幻觉问题」。幻觉并非是缺陷，而是 LLM 最大的特点。真正需要解决幻觉问题的是大语言模型助手，而我们也应该着手解决这一问题。

LLM 是造梦机，请停止一厢情愿的「拟人化」

来自亚利桑那州立大学的 AI 科学家 Subbarao Kambhampati 教授，把自己的研究总结成了一篇 X 上的长文。

他认为产生不同的认知（包括幻觉）就是 LLM 本质能力，所以不应该对于 LLM 产生过于理想化的期待。

链接地址： https://twitter.com/rao2z / status / 1718714731052384262

在他看来，人类应该将 LLM 视为强大的认知「模拟器」，而不是人类智能的替代品。

LLM 本质上是一个令人惊叹的巨大的外部非真实记忆库，如果使用得当，可以作为人类强大的认知「模拟器」。

而对于人类来说，想要发挥 LLM 的作用，关键是如何有效地利用 LLM，而不是在这个过程中不断用拟人化的企图来自欺欺人。

人类对于 LLM 最大的错觉就是我们不断地将 LLM 与人类智能相混淆，努力地将思考、想法、推理和自我批评等拟人化概念套在 LLM 之上。

这种拟人化是相当徒劳的 —— 而且，正如很多研究中展现的那样 —— 甚至会适得其反并具有误导性。

而从另一个角度说，如果我们不将「通过 LLM 开发出达到人类水平的 AI 系统」设定为唯一目标，就不用天天批判自回归 LLM 非常差劲（比如 LeCun 教授）。

LLM 是可以非常有效地补充认知的「模拟器」，并没有天然包含人类的智力。

LLM 在某些事情上能比人类做得好太多了，比如快速概括，归纳总结。

但是在做很多其他事情的能力上比人类又差太多了，比如规划、推理、自我批评等。

人类真正需要的也许是：

1.充分利用 LLM 的优势。这可以在 LLM 产品架构中加入人类或者其他具有推理能力的工具来强化 LLM 的优势。

在某种程度上，人类水平的智能仍然是目前值得追寻的圣杯，保持开放的研究途径，而不是仅仅是堆叠算力，扩大自回归架构。

大模型幻觉，究竟从何来

前段时间，一个名为 Vectara 的机构，在 GitHub 推出了一个大模型幻觉排行榜。

结果显示，在总结短文档方面，GPT-4 的表现最为优异，而 Google PaLM 的两款模型直接垫。

其中，GPT-4 的准确率为 97.0%，幻觉率为 3.0%，回答率为 100.0%。Palm-Chat 2 的准确率为 72.8%，幻觉率高达 27.2%，回答率为 88.8%。

不过，这个榜单一出来，受到了许多业内人士的质疑。

OpenAI 联合创始人兼研究员 John Schulman 曾在一次演讲 ——「RL 和 Truthfulness – Towards TruthGPT」，探讨了幻觉问题。

根据 Schulman 的说法，幻觉大致可以分为两种类型：

模型猜测错误
模式完成行为：语言模型无法表达自己的不确定性，无法质疑提示中的前提，或者继续之前犯的错误。

语言模型代表一种知识图谱，其中包含来自其自身网络中训练数据的事实，因此「微调」可以理解为学习一个函数，该函数在该知识图谱上运行并输出 token 预测。

举个例子，微调数据集可能包含「星球大战属于什么类型影片」这个问题，以及答案「科幻」。

如果这些信息已经在原始训练数据中，即它是知识图谱的一部分，那么模型不会学习新信息，而是学习一种行为 —— 输出正确答案。这种微调也被称为「行为克隆」。

但是，如果答案不是原始训练数据集的一部分（也不是知识图谱的一部分），即使网络不知道答案，它便会学习回答。

使用实际上正确但不在知识图谱中的答案进行微调，从而教会网络编造答案 —— 即产生「幻觉」。相反，用不正确的答案进行训练会导致网络隐瞒信息。

网友激烈探讨

「LLM 是一个造梦机」。多么美妙的一句话。如果我们人类也生活在更高维度创造者构造的梦境中，那么 LLM 将来是否也能递归地创造出做梦的机器？

另一位网友分享了他要求 ChatGPT 给自己的回复进行置信度评分时，ChatGPT 给了 90%，并且解释了原因：

我在回复末尾提供的置信度是一个估计值，反映了根据我所掌握的上下文和信息，我认为回复与您的询问的吻合程度。它不是通过精确的算法或公式计算出来的，而是根据问题的复杂性、所提供信息的清晰度以及我对所能获取信息的准确性和相关性的编程进行的主观评估。

其实对于幻觉的讨论本质上就是对于「真理」的讨论，也许并没有什么东西是绝对客观的「真理」。

当所需数据已经存可用时，并不总是需要搜索事实。然而，LLM 面临的挑战在于其学习过程，这通常涉及一种「破坏性」数据压缩。解决这个问题 —— 减少数据丢失，不仅能缓解幻觉问题，还能减少对大量训练数据集的需求。

事实上，我们的最终目标不仅仅是创造更多的 LLM，而是实现真正的智能。虽然 LLM 通过语言理解提供了一瞥，但它们的根本缺陷是学习过程损害了数据完整性。理想的架构应该是在学习过程中保留数据，保持对原始信息的忠实，同时还能让模型发展和完善其智能。我假设这样的架构可能涉及复制数据而不是压缩数据。

每个 LLM 都是一个不可靠的叙述者，就其架构的本质而言，它是不可逆转的。

对于大模型幻觉问题的解释，你赞同 Karpathy 的看法吗？

如何系统的去学习大模型LLM ？

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的 AI大模型资料 包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

😝有需要的小伙伴，可以V扫描下方二维码免费领取🆓

在这里插入图片描述

AI大模型系统学习路线图

在这里插入图片描述

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
  - L1.4.1 知识大模型
  - L1.4.2 生产大模型
  - L1.4.3 模型工程方法论
  - L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
  - L2.1.1 OpenAI API接口
  - L2.1.2 Python接口接入
  - L2.1.3 BOT工具类框架
  - L2.1.4 代码示例
- L2.2 Prompt框架
  - L2.2.1 什么是Prompt
  - L2.2.2 Prompt框架应用现状
  - L2.2.3 基于GPTAS的Prompt框架
  - L2.2.4 Prompt框架与Thought
  - L2.2.5 Prompt框架与提示词
- L2.3 流水线工程
  - L2.3.1 流水线工程的概念
  - L2.3.2 流水线工程的优点
  - L2.3.3 流水线工程的应用
- L2.4 总结与展望

阶段3：AI大模型应用架构实践

目标：深入理解AI大模型的应用架构，并能够进行私有化部署。
内容：
- L3.1 Agent模型框架
  - L3.1.1 Agent模型框架的设计理念
  - L3.1.2 Agent模型框架的核心组件
  - L3.1.3 Agent模型框架的实现细节
- L3.2 MetaGPT
  - L3.2.1 MetaGPT的基本概念
  - L3.2.2 MetaGPT的工作原理
  - L3.2.3 MetaGPT的应用场景
- L3.3 ChatGLM
  - L3.3.1 ChatGLM的特点
  - L3.3.2 ChatGLM的开发环境
  - L3.3.3 ChatGLM的使用示例
- L3.4 LLAMA
  - L3.4.1 LLAMA的特点
  - L3.4.2 LLAMA的开发环境
  - L3.4.3 LLAMA的使用示例
- L3.5 其他大模型介绍

阶段4：AI大模型私有化部署

目标：掌握多种AI大模型的私有化部署，包括多模态和特定领域模型。
内容：
- L4.1 模型私有化部署概述
- L4.2 模型私有化部署的关键技术
- L4.3 模型私有化部署的实施步骤
- L4.4 模型私有化部署的应用场景

辅助学习书籍PDF资源：

在这里插入图片描述

学习计划：

阶段1：1-2个月，建立AI大模型的基础知识体系。
阶段2：2-3个月，专注于API应用开发能力的提升。
阶段3：3-4个月，深入实践AI大模型的应用架构和私有化部署。
阶段4：4-5个月，专注于高级模型的应用和部署。
请根据您的个人进度和时间安排，适当调整学习计划。记得在学习过程中，理论与实践相结合，不断进行项目实践和反思，以加深理解和技能的掌握。

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。