DeepSeek-R1 幻觉问题严重：比 DeepSeek-V3 更容易产生幻觉

本文链接：https://blog.csdn.net/HUANGXIN9898/article/details/147390118

“我们正处在一个由人工智能引领的时代，而未来将是人类与机器的融合。人工智能将改变一切，包括人类本身。” ——库兹韦尔

前沿

Hello，大家好，我是三千。最近看到了一篇挺好的文章，和大家共勉！

文章内容

Vectara 的机器学习团队对DeepSeek-R1和DeepSeek-V3模型进行了幻觉测试，发现：

DeepSeek-R1的幻觉率较高：
- DeepSeek-R1 的幻觉率为 14.3% ，远高于其前身 DeepSeek-V3（3.9%）。这表明，在推理增强的过程中，DeepSeek-R1产生了更多幻觉，即生成了更多不准确或与原始信息不一致的内容。
推理增强模型可能会增加幻觉率：
- 文章推测，推理增强的大语言模型（LLM）可能会比普通的大语言模型产生更多幻觉。这一现象不仅出现在 DeepSeek 系列中，GPT-o1（推理增强的GPT）与GPT-4o（普通GPT）之间的比较也显示出类似的趋势。
HHEM模型与LLM作为判断标准的对比：
- 研究表明，HHEM（DeepSeek的幻觉检测模型）可能比LLM作为判断标准（如FACTS）更有效。在检测DeepSeek-R1幻觉率的增加时，HHEM表现出显著的灵敏度，而LLM作为判断标准可能未能准确捕捉到某些细微变化。
推理增强的权衡：
- 尽管推理增强模型可能会牺牲一些准确性，但 GPT系列 在推理和幻觉之间的平衡较好，DeepSeek系列可能需要更多优化训练，以减少幻觉问题。

DeepSeek.AI 发布了其推理增强模型 DeepSeek-R1，该模型迅速引起了 AI 领域的广泛讨论。DeepSeek-R1 展现了出色的推理能力，这使得它与 OpenAI 的 O1 模型类似。根据 DeepSeek 的说法，该模型的开发成本为 550 万美元（这一点在网络上有争议），而且运行成本比 OpenAI 的 O1 模型低 25 倍，并且 DeepSeek-R1 是开源的，采用 MIT 许可证发布。

然而，尽管 DeepSeek-R1 在推理方面表现卓越，它却有一个意想不到的问题：它的 幻觉率比其前身 DeepSeek-V3 更高。这意味着 DeepSeek-R1 在生成内容时产生的错误信息或与输入不一致的内容比 DeepSeek-V3 要多得多。

1. 幻觉率测量

为了评估 DeepSeek-R1 和 DeepSeek-V3 的表现，研究人员使用了 Vectara 的 HHEM 和 Google 的 FACTS 两种方法来判断它们生成的内容是否可靠和与原始数据匹配。他们的工作是 将源文章的摘要交给这两个模型生成，然后使用这些工具评估它们生成的摘要的质量。

Vectara 的 HHEM（一个专门用于捕捉幻觉的区分模型）
Google FACTS工作的策略，使用三个LLMs（GPT-4o、Claude-3.5-Sonnet 和 Gemini-1.5-Pro）的平均值作为评判。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

根据测量结果，DeepSeek-R1 的幻觉率为 14.3% ，远高于 DeepSeek-V3 的 3.9% 。这一结果在 Vectara 的 HHEM 和 Google 的 FACTS 等不同的判断方法中都一致。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

2. 深入分析幻觉率

研究人员通过 HHEM 2.1 来进一步分析两者的幻觉率。HHEM 2.1 是一个专门用于检测幻觉的判别模型。通过它的评分，研究人员发现 DeepSeek-R1 在幻觉率上比 DeepSeek-V3 高出了 大约 4 倍。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

均值和中位数的对比：DeepSeek-R1 的均值（0.82）和中位数（0.91）都低于 DeepSeek-V3（均值 0.92，中位数 0.93），表明 R1 确实比 V3 更容易产生幻觉。
标准差的差异：DeepSeek-R1 的 标准差 为 0.23，远高于 DeepSeek-V3 的 0.06，表明 R1 在生成的摘要中，出现幻觉的样本差异较大，更多处于 “接近幻觉” 的状态。

3. 推理增强模型的幻觉问题

研究人员进一步提出，推理增强的模型可能会产生更多幻觉，而这一点在其他推理增强模型中也有所体现。例如，GPT 系列的 GPT-o1（推理增强）和 GPT-4o（普通版）之间的对比显示，推理增强模型的幻觉率通常也较高。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

根据表3，虽然HHEM 2.1显示推理增强的大语言模型（GPT-o1）比普通的大语言模型（GPT-4o）具有更高的幻觉率，但FACTS得出的结论却相反。FACTS在GPT系列中的结论与DeepSeek系列中的结论有所不同。

这种现象表明，推理增强模型可能会更容易产生幻觉，因为它们在推理过程中处理了更多复杂的推理逻辑，可能因此产生更多无法与数据源完全匹配的内容。

4. DeepSeek-R1 和 DeepSeek-V3 的差异

分析表明，DeepSeek-R1 的推理能力虽然强大，但伴随其而来的幻觉问题也更为明显。这种幻觉现象可能是因为：

推理增强的复杂性：推理增强模型需要理解和生成更复杂的逻辑和推理关系，这可能导致它们更容易在生成内容时加入不准确或不真实的部分。
训练问题：如果 DeepSeek 团队在训练 DeepSeek-R1 时能够更加注重减少幻觉问题，或许可以减少这种 推理能力与幻觉之间的权衡。

5. 其他推理模型的对比

通过与其他推理增强模型（如 GPT-o1）进行对比，表明可能所有推理增强的模型都会有较高的幻觉率。尽管 GPT-o1 的幻觉率较 GPT-4o 略高，但它的差距并不如 DeepSeek-R1 与 DeepSeek-V3 之间的差异那么大。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

与DeepSeek系列一致，GPT系列的推理增强模型（GPT-o1）比普通模型（GPT-4o）具有更低的平均值和中位数，以及更高的标准偏差。

因此，尽管推理增强模型可能会牺牲一部分准确性，但 GPT 系列在推理与幻觉之间的平衡显然做得比 DeepSeek 更好，至少在目前的训练阶段是如此。

6. HHEM 是否比 LLM 作为判断标准更有效？

HHEM（DeepSeek 使用的专用模型）可能比 LLM 作为判断标准 更有效地捕捉幻觉。在某些情况下，当 HHEM 检测到 DeepSeek-R1 的幻觉率大幅上升时，Google 的 FACTS 模型能够捕捉到相同的趋势。然而，在 GPT 系列的推理模型之间，HHEM 看到的幻觉率变化较小，而 FACTS 模型则未能完全捕捉到这一趋势。

研究团队指出，还需要进一步的研究来验证推理增强模型是否必然会导致幻觉率的上升，以及是否可以通过更多训练减少幻觉现象。Vectara的机器学习团队正在积极努力解决这一问题。请继续关注！

结论与思考

推理增强模型与幻觉之间的关系：虽然 DeepSeek-R1 的推理能力出色，但其幻觉率的上升表明，推理增强模型可能在推理能力和准确性之间存在 一定的权衡。推理增强模型是否会牺牲更高的精度，仍需要进一步的研究。
未来改进的空间：DeepSeek 或许可以通过进一步的训练优化，来减少 推理增强模型的幻觉率，特别是在处理复杂推理任务时，尽量避免生成不准确的内容。
选择推理模型时的考虑因素：如果你在开发应用时选择了推理增强的模型（如 DeepSeek-R1 或 GPT-o1），需要 密切关注幻觉率，尤其是在需要高准确性的领域。

原文：www.vectara.com/blog/deepse…