【论文阅读】哈工大LLM幻觉综述

hqc87v5

已于 2023-11-21 15:14:27 修改

阅读量323

点赞数 2

文章标签：论文阅读

于 2023-11-21 15:04:18 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hqc87v5/article/details/134530515

版权

目录

一、幻觉分类

Factuality Hallucination 事实性幻觉

faithfulness hallucination忠实性幻觉

二、幻觉的检测

1. 事实型幻觉检测

检索外部事实

2. 不确定性估计

3. 忠实性幻觉检测

3.1 用事实的度量

3.2 用分类器的度量

3.3 基于问答方法：

3.4 不确定性估计

3.5 提示估计

三、benchmarks幻觉基准

1. 幻觉评估基准

2. 幻觉检测基准

四、幻觉缓解

1. 数据相关幻觉

1.2 缓解知识边界

知识编辑——编辑模型参数

检索增强生成 Retrieval- augmented generation（RAG）

1.3 缓解知识捷径

1.4 缓解知识回忆失败

2. 训练相关幻觉

2.1 缓解预训练相关幻觉

2.2 缓解错误对齐阶段幻觉

3. 推理相关幻觉

3.1 事实性提高解码

后编辑解码

3.2 忠实性提高解码

原文链接：https://arxiv.org/abs/2311.05232

标题：A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions

摘要

LLMs的出现标志着自然语言处理（NLP）领域的一次重大突破，带来了在文本理解和生成方面的显著进步。然而，与这些进步同时，LLMs表现出一种关键的倾向：产生幻觉，导致生成的内容与现实世界事实或用户输入不一致。这一现象对它们的实际部署提出了重大挑战，并引发了对LLMs在现实世界场景中可靠性的关注，这吸引了越来越多的注意力来检测和减轻这些幻觉。在这篇综述中，我们旨在提供一个关于LLM幻觉最新进展的全面而深入的概览。我们首先提出LLM幻觉的一个创新性分类，然后深入探讨导致幻觉的因素。随后，我们呈现了一份幻觉检测方法和基准的综合概览。此外，相应地介绍了旨在减轻幻觉的代表性方法。最后，我们分析了凸显当前限制的挑战，并提出了开放性问题，旨在勾勒出LLMs中幻觉未来研究的路径。

一、幻觉分类

Factuality Hallucination 事实性幻觉

事实性幻觉强调生成内容与可验证的现实世界事实之间的差异，通常表现为事实上的不一致或捏造。关于事实性，我们进一步根据可验证来源的存在将其划分为两个子类别：事实不一致和事实捏造。事实不一致性是指LLM的输出包含了可以扎根于真实世界信息的事实，但却呈现出矛盾的情况

例如，如图1(a)所示，当询问第一个登月的人时，模型可能断言是查尔斯·林德伯格在1951年。而事实上，第一个登月的人是尼尔·阿姆斯特朗，在1969年的阿波罗11号任务中。另一方面，

faithfulness hallucination忠实性幻觉

忠实性幻觉指的是生成内容与用户指令或输入提供的上下文的偏离，以及生成内容内的自我一致性。将其分类为指令不一致、上下文不一致和逻辑不一致，从而更好地与LLMs的当前使用情况相对应。

二、幻觉的检测

传统度量方法啊依赖于词语重叠度，难以区别似是而非的内容和幻觉内容之间的细微差别

1. 事实型幻觉检测

检索外部事实

将模型生成后的内容与可靠的知识源进行比较

2. 不确定性估计

0资源的情况下，通过估计模型产生的事实性内容的不确定性，来检测幻觉

基于内部状态——可以访问到模型的内部状态，通常通过令牌概率或熵等指标来表现。

基于LLM行为——多次直接提问，或者间接提出开放性问题，利用多个LLM进行辩论

3. 忠实性幻觉检测

确保生成内容和给定上下文的对齐

3.1 用事实的度量

测量生成内容和源内容之间关键事实的重叠程度，基于N-gram，enti

最低0.47元/天解锁文章

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【论文阅读】哈工大LLM幻觉综述

LLMs的出现标志着自然语言处理（NLP）领域的一次重大突破，带来了在文本理解和生成方面的显著进步。。这一现象对它们的实际部署提出了重大挑战，并引发了对LLMs在现实世界场景中可靠性的关注，这吸引了越来越多的注意力来检测和减轻这些幻觉。。我们首先提出LLM幻觉的一个创新性分类，然后深入探讨导致幻觉的因素。随后，我们呈现了一份幻觉检测方法和基准的综合概览。此外，相应地介绍了旨在减轻幻觉的代表性方法。最后，我们分析了凸显当前限制的挑战，并提出了开放性问题，旨在勾勒出LLMs中幻觉未来研究的路径。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。