目录
Factuality Hallucination 事实性幻觉
faithfulness hallucination忠实性幻觉
检索增强生成 Retrieval- augmented generation(RAG)
原文链接:https://arxiv.org/abs/2311.05232
标题:A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions
摘要
LLMs的出现标志着自然语言处理(NLP)领域的一次重大突破,带来了在文本理解和生成方面的显著进步。然而,与这些进步同时,LLMs表现出一种关键的倾向:产生幻觉,导致生成的内容与现实世界事实或用户输入不一致。这一现象对它们的实际部署提出了重大挑战,并引发了对LLMs在现实世界场景中可靠性的关注,这吸引了越来越多的注意力来检测和减轻这些幻觉。在这篇综述中,我们旨在提供一个关于LLM幻觉最新进展的全面而深入的概览。我们首先提出LLM幻觉的一个创新性分类,然后深入探讨导致幻觉的因素。随后,我们呈现了一份幻觉检测方法和基准的综合概览。此外,相应地介绍了旨在减轻幻觉的代表性方法。最后,我们分析了凸显当前限制的挑战,并提出了开放性问题,旨在勾勒出LLMs中幻觉未来研究的路径。
一、幻觉分类
Factuality Hallucination 事实性幻觉
事实性幻觉强调生成内容与可验证的现实世界事实之间的差异,通常表现为事实上的不一致或捏造。关于事实性,我们进一步根据可验证来源的存在将其划分为两个子类别:事实不一致和事实捏造。事实不一致性是指LLM的输出包含了可以扎根于真实世界信息的事实,但却呈现出矛盾的情况
例如,如图1(a)所示,当询问第一个登月的人时,模型可能断言是查尔斯·林德伯格在1951年。而事实上,第一个登月的人是尼尔·阿姆斯特朗,在1969年的阿波罗11号任务中。另一方面,
faithfulness hallucination忠实性幻觉
忠实性幻觉指的是生成内容与用户指令或输入提供的上下文的偏离,以及生成内容内的自我一致性。将其分类为指令不一致、上下文不一致和逻辑不一致,从而更好地与LLMs的当前使用情况相对应。
二、幻觉的检测
传统度量方法啊依赖于词语重叠度,难以区别似是而非的内容和幻觉内容之间的细微差别
1. 事实型幻觉检测
检索外部事实
将模型生成后的内容与可靠的知识源进行比较
2. 不确定性估计
0资源的情况下,通过估计模型产生的事实性内容的不确定性,来检测幻觉
基于内部状态——可以访问到模型的内部状态,通常通过令牌概率或熵等指标来表现。
基于LLM行为——多次直接提问,或者间接提出开放性问题,利用多个LLM进行辩论
3. 忠实性幻觉检测
确保生成内容和给定上下文的对齐
3.1 用事实的度量
测量生成内容和源内容之间关键事实的重叠程度,基于N-gram,enti