AI为什么经常产生幻觉？_ai幻觉是谁提出的-CSDN博客

本文链接：https://blog.csdn.net/Speechocean/article/details/132830262

文章探讨了大模型如ChatGPT产生的AI幻觉现象，分析了训练数据问题、模型过拟合、对抗攻击等因素，提出了数据把控、算法改进、上下文理解增强和对抗攻击防御的解决方案。海天瑞声发布的高质量对话数据库展示了在保障模型准确性方面的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

大模型逐渐成为了我们工作学习甚至娱乐中的一部分，除了耳熟能详的 ChatGPT，还有 LLaVa、ImageBind-LLM 等多模态大模型，都是7x24响应我们的需求进行答疑解惑。这些大模型反馈的大部分答案都是准确且有用的，但是大家在用的时候，也难免会遇到他们「一本正经的胡说八道」。

例如，让 ChatGPT 列出五个用多项式建模花样滑冰的方程的参考文献，在 ChatGPT 给出的五个参考文献中，有四个是瞎编的，根本不存在。

这种现象并不仅存于 GhatGPT，而是 AI 大模型的“通病”。当这些模型开始一本正经的胡说八道，通常称之为 AI 幻觉 (AI Hallucination)。AI 幻觉指的是 AI 模型产生完全捏造的、非真实存在的、不准确的信息。

使用“幻觉”一词进行形容是因为它与人类心理现象相似，在人类心理现象中，一个人感知到现实中不存在的东西。一如我们看这张图仿佛在动，但实际上并没有动一样。

01 AI 产生幻觉的原因

OpenAI 研究人员在报告中称：“即使是最先进的模型也容易生成谎言，它们在不确定的时刻会表现出捏造事实的倾向。这些幻觉在需要多步骤推理的领域尤其是个问题，因为一个逻辑错误就足以破坏一个更大的解决方案。”

导致 AI 产生幻觉的原因具体有哪些？

训练数据的问题：
过时或低质量的训练数据在训练过程中会误导 AI 模型，导致推理过程中的不准确。如果用于训练 AI 的数据不是最新的或质量较差，AI 可能会基于不准确的信息做出幻觉的决策。
此外，数据分类或标记不正确是另一方面原因。如果数据没有正确分类或标记，AI 可能会误解信息，导致幻觉。
如果训练数据中存在错误、矛盾或倾向性，AI 可能会受到这些问题的影响，产生虚假的结果。
模型的问题：
如果训练过程中出现过拟合现象，对于用户新的输入推理也会出现 AI 幻觉。当 AI 模型与训练数据过度匹配时，它可能会开始生成过于特定于训练数据的输出，无法很好地适应新的数据。这可能导致模型生成虚假或不相关的输出。
同时，模型可能不能对上下文充分理解。当缺乏对上下文的充分理解的 AI 模型可能会生成脱离实际情境或不相关的输出。这也可能导致模型生成虚假或荒谬的结果。
对抗攻击问题：
不同于传统的“攻防”竞赛，AI 模型也容易受到对抗攻击的影响。当恶意攻击者故意篡改模型的输入时，可能导致它生成不正确或恶意的输出。目前学术界有很多是 spoof 和 antispoof 方案在相互抗衡。

02 AI 幻觉的应对方案

OpenAI 数学论文生成器 (Mathgen) 研究员卡尔・科布 (Karl Cobbe) 在接受采访时表示"检测和减轻一个模型的逻辑错误或幻觉，是构建一致性通用人工智能的关键步骤。"

针对 AI 幻觉，我们可以采用以下措施。

AI 数据把控：
数据是AI模型的基石。保证训练数据的高质量至关重要，这包括采取多项措施来维护和提升数据的质量水平，以确保AI系统能够产生准确和可靠的结果。
首先，及时更新数据以反映最新信息是至关重要的。因为数据不断演化，对于AI系统来说，使用过时的数据可能会导致误导性的结果。因此，定期对数据进行更新，以反映最新的信息和变化，对于保持模型的准确性至关重要。
其次，对数据进行仔细的分类和标记，有助于降低错误分类或标记的概率。这需要专注于数据的细节，并采用严格的标准来确保数据被正确地分类和标记。
精细的分类和标记过程有助于提供高质量的训练数据，减少了AI系统产生幻觉的风险。除了使用网络爬取的低质量数据，可以使用数据公司标注的高质量，精准数据微调模型，引导大数据训练的大模型的价值取向。
算法改进：
正如 OpenAI 所做的那样，根据人类反馈进行强化学习 (RLHF) 方法。RLHF包括开发一个基于人类偏好和反馈的奖励模型，该模型将用于引导语言模型提供更加一致的输出，即有用、诚实和无害的输出。
引入自动纠错机制，减轻对训练数据质量的过分依赖。这些机制能够检测并修复数据中的错误或不一致性，从而提高算法在面对不规整数据时的性能。进一步融合上下文理解和语境感知功能，以赋予算法更高层次的智能。这意味着算法将能够更好地理解数据的背景信息和相关语境，从而更准确地推断和处理信息。这样的整合使得算法更适合处理复杂问题和多义性数据。

反对抗攻击：
研发应对对抗攻击的检测和防御机制是至关重要的，这些机制旨在减少恶意攻击对AI模型的影响。同时，采用对抗性训练方法可以大幅提升模型的鲁棒性，以更好地抵御潜在的攻击。
首先，开发对抗攻击检测和防御机制是为了保护AI系统免受不法分子的干扰。这些机制旨在识别和阻止恶意攻击，如输入数据中的潜在欺骗性信息或其他形式的攻击。通过实施这些机制，AI系统能够更好地辨别和拦截恶意输入，确保其生成的结果是准确和可信的。
其次，使用对抗性训练方法是一种增强模型鲁棒性的策略。这种方法通过在训练过程中故意引入对抗性样本，迫使模型学习如何应对潜在的攻击。
这种训练可以帮助模型更好地理解和应对不良输入，从而降低受到对抗攻击的风险。通过反复曝露于对抗性情境，模型逐渐变得更加坚固，更能够应对各种潜在的攻击手段。

对于上述方案中，训练数据的质量是重中之重。海天瑞声致力于为AI大模型提供高质量、大规模、精标注的结构化数据。7月发布了中文千万轮对话语料库DOTS-NLP-216，采集于真实场景，符合中文表达习惯的自然对话数据，覆盖工作、生活、校园等场景，及金融、教育、娱乐、体育、汽车、科技等领域，期待为中文大语言模型带来新动能。