【大模型安全论文阅读】Detecting hallucinations in large language models using semantic entropy

Devil Like

已于 2024-07-25 00:22:11 修改

阅读量245

点赞数

文章标签：论文阅读语言模型人工智能

于 2024-07-25 00:21:35 首次发布

本文链接：https://blog.csdn.net/Devilike/article/details/140674537

版权

论文名称:Detecting hallucinations in large language models using semantic entropy
发表期刊：Nature
作者：Sebastian Farquhar, Jannik Kossen, Lorenz Kuhn & Yarin Gal

论文概要

这篇论文探讨了如何利用语义熵来检测大型语言模型（LLM）中的幻觉现象。研究通过概率工具定义并测量LLM生成的“语义”熵，即基于句子含义的熵。高熵值意味着高不确定性，因此语义熵是一种估计语义不确定性的方法。该研究引入的语义不确定性是一个更广泛的类别，可以与其他指标结合使用。研究区分了导致类似“症状”的不同机制，如LLM因训练错误数据（如常见误解）而持续出错，或为了追求奖励而“说谎”，以及推理或泛化的系统失败等。研究方法在提供可扩展监督的一部分问题上有进展，通过检测人们可能认为合理的虚构情况。尽管该方法不能保证事实性，因为它无法解决LLM输出系统性错误的问题，但它显著提高了先进LLM的问答准确性，揭示出目前虚构是误差的一个主要来源。研究还展示了如何通过发展一个量化的指标来检测何时一个输入可能导致LLM生成任意和无根据的答案，这对于避免回答可能导致虚构的问题、使用户意识到答案的不可靠性或用更可靠的搜索或检索补充LLM至关重要。这对于自由形式生成的关键新兴领域至关重要，其中简单的适用于封闭词汇和多项选择的方法失败了。过去关于LLM的不确定性研究主要集中在更简单的环境，如分类器和回归器，而LLM最激动人心的应用与自由形式生成有关。该论文还讨论了机器学习背景下“幻觉”一词的适当性，尽管同意在LLM中使用这一术语必须谨慎，但幻觉一词的广泛采用反映了它指向一个重要的现象。

方法

语义熵（SE）指的是估计语义不确定性的一种方法，计算语义熵首先对文本进行语义聚类，再计算聚类序列后的熵值

Devil Like

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
【大模型安全论文阅读】Detecting hallucinations in large language models using semantic entropy

论文名称:Detecting hallucinations in large language models using semantic entropy发表期刊：Nature作者：Sebastian Farquhar, Jannik Kossen, Lorenz Kuhn & Yarin Gal。
复制链接

扫一扫