验证链(CoVe)降低LLM中的幻觉10.31

在这里插入图片描述

摘要

在大型语言模型中,生成看似正确但实际上是错误的事实信息,即所谓的幻觉,是一个尚未解决的问题。本文研究了语言模型在给出回答时进行自我纠正的能力。开发了一种称为“验证链”(COVE)的方法,通过该方法,模型首先
(i)起草一个初始回答;
(ii)计划验证问题,对其起草的回答进行事实核查;(iii)独立回答这些问题,以避免答案受其他回答的偏见影响
(iv)生成经过验证的最终回答。

在实验证明中,展示了COVE在各种任务中减少了幻觉的发生,包括基于维基数据的基于列表的问题、闭卷的MultiSpanQA和长篇文本生成等任务。

1 引言

大型语言模型(LLM)是在包含数十亿个标记的文本文档的大型语料库上进行训练的。研究表明,随着模型参数的增加,像闭卷QA这样的任务的性能在准确性上有所提高,而更大的模型可以生成更多正确的事实陈述。然而,即使是最大的模型仍然可能失败,特别是在较少人知的中等和尾部分布的事实上,即在训练语料库中相对罕见的事实。在模型错误的情况下,它们会生成一个通常看起来合理的替代性回答(例如,一个类似的实体,但是错误的实体)。这些事实上的错误生成被称为幻觉。此外,在生成多个句子或段落的长篇任务中,由于暴露偏差的问题,幻觉问题可能会加剧。

当前的语言建模研究超越了“下一个词预测”,并专注于它们的推理能力。
通过鼓励语言模型首先生成内部思考或推理链,然后再进行回答,可以提高推理任务的性能,以及通过自我批评来更新初始回答。

在这项工作中,沿着这一研究方向,研究基于语言模型的推理如何减少幻觉的生成。开发了一种称为“验证链”(CoVe)的方法,根据初始草稿回答,
(1)计划验证问题以检查其工作,
(2)系统地回答这些问题,
(3)生成改进的修订回答。
由此发现,独立的验证问题往往提供比原始长篇答案更准确的事实,并因此提高了整体回答的正确性。

假设有以下对话:
用户:请问巴黎是法国的首都吗?
模型:是的,巴黎是法国的首都。
在CoVe方法中,模型会生成一个初始回答,然后计划一系列独立验证问题来核查回答的准确性。在这个例子中,可能会生成以下验证问题:
1.巴黎是哪个国家的首都?
2.法国的首都是哪个城市?
3.巴黎是法国的首都吗?
模型会独立回答这些问题,例如:
1.巴黎是法国的首都。
2.法国的首都是巴黎。
3.是的,巴黎是法国的首都。

本文研究了在各种任务中对这种方法的变化:从基于列表的问题,闭卷QA到长篇文本生成。

  1. 提出了一种从左到右生成整个验证链的联合方法,与基线语言模型相比,它提高了性能并减少了幻觉。
  2. 注意到自己生成的上下文中现有的幻觉的模型往往会重复这些幻觉。因此,还引入了进一步的改进,
  3. 采用分解变体将验证链步骤分开,从而确定要关注的上下文。展示了这些分解变体如何在考虑的所有三个任务中进一步提高性能。

2 相关工作

幻觉是语言模型生成中的一个普遍问题,出现在许多任务中,包括摘要生成

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值