【大模型安全论文阅读】Detecting hallucinations in large language models using semantic entropy

论文名称:Detecting hallucinations in large language models using semantic entropy
发表期刊:Nature
作者:Sebastian Farquhar, Jannik Kossen, Lorenz Kuhn & Yarin Gal


论文概要 


这篇论文探讨了如何利用语义熵来检测大型语言模型(LLM)中的幻觉现象。研究通过概率工具定义并测量LLM生成的“语义”熵,即基于句子含义的熵。高熵值意味着高不确定性,因此语义熵是一种估计语义不确定性的方法。该研究引入的语义不确定性是一个更广泛的类别,可以与其他指标结合使用。研究区分了导致类似“症状”的不同机制,如LLM因训练错误数据(如常见误解)而持续出错,或为了追求奖励而“说谎”,以及推理或泛化的系统失败等。研究方法在提供可扩展监督的一部分问题上有进展,通过检测人们可能认为合理的虚构情况。尽管该方法不能保证事实性,因为它无法解决LLM输出系统性错误的问题,但它显著提高了先进LLM的问答准确性,揭示出目前虚构是误差的一个主要来源。研究还展示了如何通过发展一个量化的指标来检测何时一个输入可能导致LLM生成任意和无根据的答案,这对于避免回答可能导致虚构的问题、使用户意识到答案的不可靠性或用更可靠的搜索或检索补充LLM至关重要。这对于自由形式生成的关键新兴领域至关重要,其中简单的适用于封闭词汇和多项选择的方法失败了。过去关于LLM的不确定性研究主要集中在更简单的环境,如分类器和回归器,而LLM最激动人心的应用与自由形式生成有关。该论文还讨论了机器学习背景下“幻觉”一词的适当性,尽管同意在LLM中使用这一术语必须谨慎,但幻觉一词的广泛采用反映了它指向一个重要的现象。


方法

语义熵(SE)指的是估计语义不确定性的一种方法,计算语义熵首先对文本进行语义聚类,再计算聚类序列后的熵值

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值