ICLR‘25 Spotlight | ReDeEP:针对RAG场景的幻觉检测与缓解

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!

点击 阅读原文 观看作者讲解回放!

作者简介

孙忠祥,中国人民大学博士生

论文简介

Retrieval-Augmented Generation (RAG) 模型通过结合外部知识以减少幻觉问题,但即使检索到准确的上下文,RAG 模型仍可能在生成过程中产生与检索信息相冲突的“幻觉”输出。

RAG 幻觉示例

因果角度分析,已有方法存在的问题

我们的研究聚焦于:

1. 幻觉来源

- 通过机制解释性 (Mechanistic Interpretability) 分析 LLM 模型内部的注意力和前馈网络(Feed-Forward Network,FFN),我们发现:
- 某些注意力头(称为 Copying Heads)在获取外部上下文时,经常出现信息丢失或未能有效“拷贝”外部知识的现象。
- 部分深层 FFN(称为 Knowledge FFNs)过度向残差流中注入参数化知识 (Parametric Knowledge),可能“淹没”外部上下文。

2. 提出方法:ReDeEP (Regressing Decoupled External context and Parametric knowledge)

  • 将模型对外部上下文和参数化知识的利用进行显式解耦,并通过多元线性回归来检测幻觉倾向。

  • 提供两种检测粒度:Token-level 和 Chunk-level,兼顾精细度与计算效率。

3.改进模型生成:AARF  (Add Attention Reduce FFN)

  1. 在推理过程中,无需额外训练,依据实时“幻觉分数”对注意力和 FFN 的输出进行动态加权调控。

  2. 引导模型更多依赖外部知识,同时抑制过度依赖内部参数化知识,从而显著降低幻觉。


方法细节速览

RAG 幻觉起源的验证性实验

我们在 LLaMA2-7B-chat  上进行实验,并基于 RAGTruth 数据集对注意力头与 FFN 的内部机制进行解析,重点关注模型到底如何处理外部上下文与参数化知识。主要步骤如下:

1. 外部上下文与参数化知识的度量

  • External Context Score (ECS)

    为量化模型对外部检索到的上下文的关注与使用程度,针对指定的注意力头(尤其是 Copying Heads),我们计算其对检索片段的注意力分布,并结合隐状态的语义相似度来得到 ECS。如果注意力在正确的上下文上且能持续被后续层保留,则 ECS 值会更高。

  • Parametric Knowledge Score (PKS)

    FFN 常被认为存储了模型的内在参数化知识。我们引入类似的映射函数,对 FFN 前后隐状态对应的词表分布做 Jensen-Shannon 散度  (JSD) 计算,得到模型在此处“额外注入”的知识量。若深层 FFN(Knowledge FFNs)在残差流中插入过多信息,就会让 PKS 值变大。

ReDeEP 模型示意图

2. Token-level & Chunk-level 检测 —— ReDeEP

3. 减轻幻觉 —— AARF (Add Attention Reduce FFN)


实验成果

  • ReDeEP 在幻觉检测 上的显著提升

    在 RAGTruth 和 Dolly 数据集上,ReDeEP 相比现有方法在检测准确率和各项衡量指标(如 AUC、F1-score)上均取得突破。多层次回归方法有效减少了对检测的误判。

  • AARF 减少幻觉并提升真实性

    动态放大关注外部知识的注意力头,同时抑制深层 FFN 的干扰,大幅降低幻觉发生率,提升了文本生成的可靠性与一致性。

  • 适用 LLaMA 系列模型的通用性

    我们在 LLaMA 系列模型上获得了稳定且显著的效果,证实了方法的可移植性和对不同大语言模型的适配潜力。


亮点

  • 1.理论创新

    首次从机制解释性的角度,将外部上下文与参数化知识在 RAG 模型中的具体作用进行解耦分析,并借助因果干预实验验证其对幻觉的实质影响。


  • 2.工程实践

    提供了两种检测粒度(Token-level 与 Chunk-level),并在推理阶段可无缝集成 AARF 算法,无需大规模训练即可直接套用到现有 RAG 流程中。


  • 3.应用潜力

    在医疗、法律等要求高可信度的文本生成场景中具有广阔应用前景,为后续多模态、多场景的生成式 AI 发展奠定坚实基础。

近期活动推荐

CVPR 2025结果出炉|一作讲者已开启招募,欢迎新老朋友来预讲会相聚!

 关于AI TIME 

AI TIME源起于2019年,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,加强思想碰撞,链接全球AI学者、行业专家和爱好者,希望以辩论的形式,探讨人工智能和人类未来之间的矛盾,探索人工智能领域的未来。

迄今为止,AI TIME已经邀请了2000多位海内外讲者,举办了逾700场活动,超800万人次观看。

我知道你 

在看

提出观点,表达想法,欢迎 

留言

点击 阅读原文 观看作者讲解回放!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值