大模型的幻觉到底是什么？可靠性的五个方面

本文链接：https://blog.csdn.net/m0_59614665/article/details/140793858

LLM 时常会出现一些神奇的现象—— 幻觉 Hallucination ，在 AI 领域，幻觉是指模型生成的信息可能不真实或不准确，这是一个常见的问题，而 Truthfulness 指的是模型输出的真实性或者叫可靠性，显然如果模型输出的真实性越高，那么出现幻觉的概率就是越低的。

我们主要来关注一下可靠性中的幻觉：

Misinformation 错误信息
Hallucination 幻觉
Inconsistency 矛盾
Miscalibration 校准误差
Sycophancy 谄媚

一、Misinformation 错误信息

1. 定义 ：我们在这里将 Misinformation 定义为是由 LLM 无意生成的，而不是故意生成来对用户造成伤害的，因为 LLM 缺乏提供事实正确信息的能力。另外，我们可能会直观的认为 LLM 只会在有挑战性的问题上犯错，但事实上，有时 LLM 即使对于简单的问题也无法提供正确的答案，至少在没有复杂的 Prompt 设计的情况下是这样的，这也一定程度上说明了好的 Prompt 设计的重要性，所以让我们耐心的向 LLM 提问吧（笑）。

2. 原因 ：虽然 LLM 产生不真实答案的原因没有一个公认的原因，但存在一些猜测：

原生性问题 ：因为训练数据不会完美，所以错误信息很可能已经存在，甚至可能在互联网的传播上得到强化
共现诱导 ：大量实体的共现是从 LLM 中提取的不正确知识的原因之一，举个例子，小明和小红经常出现在同一篇文章里，模型可能会认为小明和小红是情侣，然而实际情况并不是这样
罕见知识 ：LLM 在记忆不常见的实体和关系不太精确，如果利用检索到的外部非参数知识来预测不常见的事实的话会更好，在这时，检索模型比语言模型效果好
模型之间亦有差别 ：对于 LLM 是否可以通过提示中提供的信息更新他们记忆的事实，有些模型可以，而有些不行

二、Hallucination 幻觉

1. 定义 ：LLM 可以信心满满地生成毫无意义或不忠实于所提供的源内容的内容，这在 LLM 中被称为幻觉。在心理学文献中，类似的现象被称为虚构，即无意欺骗的错误记忆，有时是由脑损伤引起的。

请注意，幻觉和错误信息之间是有区别的：

错误信息大多意味着错误或有偏见的答案，通常可能是由于错误的信息输入引起的
但幻觉可能由与源内容相冲突的捏造内容（内在幻觉）或无法从现有来源验证（外在幻觉）组成。

2. 原因 ：梅开二度，产生幻觉的确切原因尚不清楚，不过也同样有一些猜测：

数据不匹配 ：可能是由源训练数据和测试数据之间的不匹配或分布偏移引起。一些 NLP 任务自然需要源输入文本和目标参考之间存在一些不匹配，例如 Chat 风格的开放域对话。当 LLM 的置信度被错误校准时，幻觉也可能发生，这通常是由于缺乏人类监督、对齐示例覆盖率低以及监督数据本身固有的模糊性造成的
训练机制 ：此外，幻觉可能是由潜在的训练机制引起的，包括但不限于对下一个标记进行采样时引入的随机性、编码和解码中的错误、不平衡分布的训练偏差以及对记忆信息的过度依赖等

3. 评估与检测 ：评估和检测幻觉仍然是一个正在进行的领域，常见的评估任务有：

文本摘要 ：LLM 输出与参考文本之间的标准文本相似度是一个简单的指标，例如 ROUGE 和 BLEU
QA ：LLM 回答问题，我们计算 LLM 答案和真实答案之间的文本相似度
分类器 ：训练真实性分类器来标记 LLM 输出
人工评估 ：人工评估仍然是最常用的方法之一，这没得说

4. 解决方法 ：减轻幻觉也没有一种定式说应该如何解决最好，目前有的方法例如：

提高训练数据质量 ：构建更可靠的数据集和数据清理
基于不同的任务在 RLHF 中使用不同的奖励 ：在 Chat 中，Alignment 的奖励是生成的模板与从输入中提取的槽值对之间的差异。在文本摘要中，通过结合 ROUGE 和多项选择完形填空得分来设计奖励，以减少摘要文本中的幻觉。
外部知识库 ：显然，利用外部知识库辅助检索也可以有不错的效果

三、Inconsistency 矛盾

1. 定义 ：LLM 可能无法向不同用户、不同会话中的同一用户，甚至同一对话的会话内的聊天中提供相同且一致的答案，这就是矛盾，想必大家都遇到过。

2. 原因 ：帽子戏法，不一致的确切原因尚不清楚，但随机性肯定发挥了作用，包括但不限于：

采样 token
模型更新
平台内隐藏操作
硬件规格的随机性

这表明 LLM 在推理能力方面可能仍然落后，这要求用户在 Prompt 时小心谨慎，从而提高了使用 LLM 获得正确答案的门槛。此外，训练数据中令人困惑和相互矛盾的信息肯定是原因之一，由此产生的不确定性增加了对下一个标记进行采样时的随机性产生输出。

3. 解决方法 ：关于如何提高 LLM 的 alignment 已经有一些讨论

使用由不同输入表示的模型输出定义的一致性损失来调节模型训练
强制 LLM 自我提高一致性的另一种技术是通过思维链（COT）它鼓励 LLM 为其最终答案提供逐步解释

四、Miscalibration 校准误差

定义：LLM 由于其固有的局限性，导致对缺乏客观答案的主题和不确定性的领域可能会表现出过度自信，这是应当警惕的。这种过度自信表明模型对知识库缺乏认识，从而导致自信但错误的回答。

原因：大四喜最终还是没有出现，这种过度自信的问题部分源于训练数据的性质，训练数据通常包含了互联网数据中固有的两极分化观点。

解决方法 ：

有一种针对 Chat 模型的校准方法，鼓励这些模型在提供不正确的响应时表达较低的置信度
还有一种将标准神经网络中的 Softmax 输出重新调整的方法

然而，这些校准方法通常会带来权衡，对校准 Transformer 的实证研究表明，尽管域外任务略有改善，但域内性能却恶化了。

对于 LLM，我们其实有两种方法来计算不确定性：

首先，如下图所示，LLM 在有针对性的 Prompt 时，确实可以以文本形式输出自己的置信度

在这里插入图片描述

其次，我们也可以通过以下方式获取 LLM 的置信度：token 的 logits，尽管某些平台可能不允许用户访问它们，例如 ChatGPT 和 GPT-4
Alignment 步骤有助于遏制过度自信，这些研究强调教学模式以语言表达不确定性，提供一种柔和且经过校准的偏好来传达不确定性。例如上图所示的那个例子，然而，这种方法需要精炼的人工标签信息来进行微调和开发新的训练机制，这些机制可以正确地利用这些信息
-一种新兴的机制可以帮助模型轻松放弃回答问题，这是选择性分类器的作用。这些模型可以提供诸如我不知道答案或作为人工智能模型，我无法回答之类的响应，特别是当任务超出其领域时。通常，选择性分类会使用分类器的 Softmax 输出来预测高确定性样本的结果，并放弃低确定性样本的结果
此外，在各种 NLP 任务中使用保形预测方法提供了有希望的进步。这些努力，与域外检测策略以及通过事后缩放和微调改进模型校准的方法相结合，共同表明，尽管 LLM 通常校准不佳，但这些挑战可以可以通过更先进的方法部分解决