AI大语言模型幻觉排行榜：Gemini 2.0 Flash幻觉最低

最新推荐文章于 2025-06-10 19:55:42 发布

吴脑的键客

最新推荐文章于 2025-06-10 19:55:42 发布

阅读量2.4k

点赞数 1

分类专栏：人工智能文章标签：人工智能语言模型自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41446370/article/details/145817420

版权

人工智能专栏收录该内容

609 篇文章

订阅专栏

近日，Vectara 发布了一份名为 “幻觉排行榜” 的报告，比较了不同大型语言模型（LLM）在总结短文档时产生幻觉的表现。这份排行榜利用了 Vectara 的 Hughes 幻觉评估模型(HHEM-2.1)，该模型定期更新，旨在评估这些模型在摘要中引入虚假信息的频率。根据最新数据，报告指出了一系列流行模型的幻觉率、事实一致性率、应答率以及平均摘要长度等关键指标。

在这里插入图片描述
在最新的排行榜中，谷歌的 Gemini2.0系列表现出色，尤其是 Gemini-2.0-Flash-001，以0.7% 的低幻觉率位居榜首，显示出其在处理文档时几乎没有引入虚假信息。此外，Gemini-2.0-Pro-Exp 和 OpenAI 的 o3-mini-high-reasoning 模型分别以0.8% 的幻觉率紧随其后，表现同样不俗。

报告还显示，尽管许多模型的幻觉率有所上升，但大部分仍保持在一个较低的水平，且多模型的事实一致性率均在95% 以上，表明它们在确保信息真实方面的能力相对强劲。特别值得注意的是，模型的应答率普遍较高，绝大多数模型的应答率接近100%，这意味着它们在理解和回应问题时表现出色。

另外，排行榜还提及了不同模型的平均摘要长度，说明模型在信息浓缩方面的能力差异。总体来看，该排行榜不仅为研究者和开发者提供了重要的参考数据，也为普通用户了解当前大型语言模型的表现提供了便利。

具体排名入口:https://github.com/vectara/hallucination-leaderboard

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。