“我们正处在一个由人工智能引领的时代,而未来将是人类与机器的融合。人工智能将改变一切,包括人类本身。” ——库兹韦尔
前沿
Hello,大家好,我是 三千。最近看到了一篇挺好的文章,和大家共勉!
文章内容
Vectara 的机器学习团队对DeepSeek-R1和DeepSeek-V3模型进行了幻觉测试,发现:
-
DeepSeek-R1的幻觉率较高:
- DeepSeek-R1 的幻觉率为 14.3% ,远高于其前身 DeepSeek-V3(3.9%)。这表明,在推理增强的过程中,DeepSeek-R1产生了更多幻觉,即生成了更多不准确或与原始信息不一致的内容。
-
推理增强模型可能会增加幻觉率:
- 文章推测,推理增强的大语言模型(LLM)可能会比普通的大语言模型产生更多幻觉。这一现象不仅出现在 DeepSeek 系列中,GPT-o1(推理增强的GPT)与GPT-4o(普通GPT)之间的比较也显示出类似的趋势。
-
HHEM模型与LLM作为判断标准的对比:
- 研究表明,HHEM(DeepSeek的幻觉检测模型)可能比LLM作为判断标准(如FACTS)更有效。在检测DeepSeek-R1幻觉率的增加时,HHEM表现出显著的灵敏度,而LLM作为判断标准可能未能准确捕捉到某些细微变化。
-
推理增强的权衡:
-
尽管推理增强模型可能会牺牲一些准确性,但 GPT系列 在推理和幻觉之间的平衡较好,DeepSeek系列可能需要更多优化训练,以减少幻觉问题。
-
DeepSeek.AI 发布了其推理增强模型 DeepSeek-R1,该模型迅速引起了 AI 领域的广泛讨论。DeepSeek-R1 展现了出色的推理能力,这使得它与 OpenAI 的 O1 模型类似。根据 DeepSeek 的说法,该模型的开发成本为 550 万美元(这一点在网络上有争议),而且运行成本比 OpenAI 的 O1 模型低 25 倍,并且 DeepSeek-R1 是开源的,采用 MIT 许可证发布。
然而,尽管 DeepSeek-R1 在推理方面表现卓越,它却有一个意想不到的问题:它的 幻觉率比其前身 DeepSeek-V3 更高。这意味着 DeepSeek-R1 在生成内容时产生的错误信息或与输入不一致的内容比 DeepSeek-V3 要多得多。
1. 幻觉率测量
为了评估 DeepSeek-R1 和 DeepSeek-V3 的表现,研究人员使用了 Vectara 的 HHEM 和 Google 的 FACTS 两种方法来判断它们生成的内容是否可靠和与原始数据匹配。他们的工作是 将源文章的摘要交给这两个模型生成,然后使用这些工具评估它们生成的摘要的质量。
- Vectara 的 HHEM(一个专门用于捕捉幻觉的区分模型)
- Google FACTS工作的策略,使用三个LLMs(GPT-4o、Claude-3.5-Sonnet 和 Gemini-1.5-Pro)的平均值作为评判。
根据测量结果,DeepSeek-R1 的幻觉率为 14.3% ,远高于 DeepSeek-V3 的 3.9% 。这一结果在 Vectara 的 HHEM 和 Google 的 FACTS 等不同的判断方法中都一致。
2. 深入分析幻觉率
研究人员通过 HHEM 2.1 来进一步分析两者的幻觉率。HHEM 2.1 是一个专门用于检测幻觉的判别模型。通过它的评分,研究人员发现 DeepSeek-R1 在幻觉率上比 DeepSeek-V3 高出了 大约 4 倍。
- 均值和中位数的对比:DeepSeek-R1 的均值(0.82)和中位数(0.91)都低于 DeepSeek-V3(均值 0.92,中位数 0.93),表明 R1 确实比 V3 更容易产生幻觉。
- 标准差的差异:DeepSeek-R1 的 标准差 为 0.23,远高于 DeepSeek-V3 的 0.06,表明 R1 在生成的摘要中,出现幻觉的样本差异较大,更多处于 “接近幻觉” 的状态。
3. 推理增强模型的幻觉问题
研究人员进一步提出,推理增强的模型可能会产生更多幻觉,而这一点在其他推理增强模型中也有所体现。例如,GPT 系列的 GPT-o1(推理增强)和 GPT-4o(普通版)之间的对比显示,推理增强模型的幻觉率通常也较高。
根据表3,虽然HHEM 2.1显示推理增强的大语言模型(GPT-o1)比普通的大语言模型(GPT-4o)具有更高的幻觉率,但FACTS得出的结论却相反。FACTS在GPT系列中的结论与DeepSeek系列中的结论有所不同。
这种现象表明,推理增强模型可能会更容易产生幻觉,因为它们在推理过程中处理了更多复杂的推理逻辑,可能因此产生更多无法与数据源完全匹配的内容。
4. DeepSeek-R1 和 DeepSeek-V3 的差异
分析表明,DeepSeek-R1 的推理能力虽然强大,但伴随其而来的幻觉问题也更为明显。这种幻觉现象可能是因为:
- 推理增强的复杂性:推理增强模型需要理解和生成更复杂的逻辑和推理关系,这可能导致它们更容易在生成内容时加入不准确或不真实的部分。
- 训练问题:如果 DeepSeek 团队在训练 DeepSeek-R1 时能够更加注重减少幻觉问题,或许可以减少这种 推理能力与幻觉之间的权衡。
5. 其他推理模型的对比
通过与其他推理增强模型(如 GPT-o1)进行对比,表明可能所有推理增强的模型都会有较高的幻觉率。尽管 GPT-o1 的幻觉率较 GPT-4o 略高,但它的差距并不如 DeepSeek-R1 与 DeepSeek-V3 之间的差异那么大。
与DeepSeek系列一致,GPT系列的推理增强模型(GPT-o1)比普通模型(GPT-4o)具有更低的平均值和中位数,以及更高的标准偏差。
因此,尽管推理增强模型可能会牺牲一部分准确性,但 GPT 系列在推理与幻觉之间的平衡显然做得比 DeepSeek 更好,至少在目前的训练阶段是如此。
6. HHEM 是否比 LLM 作为判断标准更有效?
HHEM(DeepSeek 使用的专用模型)可能比 LLM 作为判断标准 更有效地捕捉幻觉。在某些情况下,当 HHEM 检测到 DeepSeek-R1 的幻觉率大幅上升时,Google 的 FACTS 模型能够捕捉到相同的趋势。然而,在 GPT 系列的推理模型之间,HHEM 看到的幻觉率变化较小,而 FACTS 模型则未能完全捕捉到这一趋势。
研究团队指出,还需要进一步的研究来验证推理增强模型是否必然会导致幻觉率的上升,以及是否可以通过更多训练减少幻觉现象。Vectara的机器学习团队正在积极努力解决这一问题。请继续关注!
结论与思考
- 推理增强模型与幻觉之间的关系:虽然 DeepSeek-R1 的推理能力出色,但其幻觉率的上升表明,推理增强模型可能在推理能力和准确性之间存在 一定的权衡。推理增强模型是否会牺牲更高的精度,仍需要进一步的研究。
- 未来改进的空间:DeepSeek 或许可以通过进一步的训练优化,来减少 推理增强模型的幻觉率,特别是在处理复杂推理任务时,尽量避免生成不准确的内容。
- 选择推理模型时的考虑因素:如果你在开发应用时选择了推理增强的模型(如 DeepSeek-R1 或 GPT-o1),需要 密切关注幻觉率,尤其是在需要高准确性的领域。
原文:www.vectara.com/blog/deepse…
结语
以上就是今天与大家分享的全部内容,你的支持是我更新的最大动力,我们下期见!
打工人肝 文章/视频 不易,期待你一键三连的鼓励 !!!
作者:程序员三千_
链接:https://juejin.cn/post/7467795996673261583
来源:稀土掘金
见!
打工人肝 文章/视频 不易,期待你一键三连的鼓励 !!!
如何系统学习掌握AI大模型?
AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。
学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。
这里给大家精心整理了一份
全面的AI大模型学习资源
,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享
!
1. 成长路线图&学习规划
要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。
这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
2. 大模型经典PDF书籍
书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。(书籍含电子版PDF)
3. 大模型视频教程
对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识。
4. 2024行业报告
行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
5. 大模型项目实战
学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。
6. 大模型面试题
面试不仅是技术的较量,更需要充分的准备。
在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以
微信扫描下方CSDN官方认证二维码
,免费领取【保证100%免费
】