验证链（CoVe）降低LLM中的幻觉10.31_chain-of-verification-CSDN博客

本文链接：https://blog.csdn.net/RM_Jin/article/details/134146406

本文研究了如何减少大型语言模型（LLM）在生成回答时的幻觉问题，提出了验证链（Chain-of-Verification, CoVe）方法。CoVe通过计划和执行验证问题，对初步回答进行自我校验，从而生成更准确的修订回答。在各种任务上，如基于列表的问题、闭卷QA和长篇文本生成，CoVe展示了减少幻觉的效果。" 123748063,13108010,JavaWeb OA系统：Springboot+Freemarker+MySQL+Maven+Mybatis+JPA实现,"['Java', 'Spring框架', '数据库管理', '前端开发', 'Maven', 'Mybatis', 'JPA']

摘要由CSDN通过智能技术生成

在这里插入图片描述

摘要

在大型语言模型中，生成看似正确但实际上是错误的事实信息，即所谓的幻觉，是一个尚未解决的问题。本文研究了语言模型在给出回答时进行自我纠正的能力。开发了一种称为“验证链”（COVE）的方法，通过该方法，模型首先
（i）起草一个初始回答；
（ii）计划验证问题，对其起草的回答进行事实核查；（iii）独立回答这些问题，以避免答案受其他回答的偏见影响
（iv）生成经过验证的最终回答。

在实验证明中，展示了COVE在各种任务中减少了幻觉的发生，包括基于维基数据的基于列表的问题、闭卷的MultiSpanQA和长篇文本生成等任务。

1 引言

大型语言模型（LLM）是在包含数十亿个标记的文本文档的大型语料库上进行训练的。研究表明，随着模型参数的增加，像闭卷QA这样的任务的性能在准确性上有所提高，而更大的模型可以生成更多正确的事实陈述。然而，即使是最大的模型仍然可能失败，特别是在较少人知的中等和尾部分布的事实上，即在训练语料库中相对罕见的事实。在模型错误的情况下，它们会生成一个通常看起来合理的替代性回答（例如，一个类似的实体，但是错误的实体）。这些事实上的错误生成被称为幻觉。此外，在生成多个句子或段落的长篇任务中，由于暴露偏差的问题，幻觉问题可能会加剧。

当前的语言建模研究超越了“下一个词预测”，并专注于它们的推理能力。
通过鼓励语言模型首先生成内部思考或推理链，然后再进行回答，可以提高推理任务的性能，以及通过自我批评来更新初始回答。

在这项工作中，沿着这一研究方向，研究基于语言模型的推理如何减少幻觉的生成。开发了一种称为“验证链”（CoVe）的方法，根据初始草稿回答，
（1）计划验证问题以检查其工作，
（2）系统地回答这些问题，
（3）生成改进的修订回答。
由此发现，独立的验证问题往往提供比原始长篇答案更准确的事实，并因此提高了整体回答的正确性。

假设有以下对话：
用户：请问巴黎是法国的首都吗？
模型：是的，巴黎是法国的首都。
在CoVe方法中，模型会生成一个初始回答，然后计划一系列独立验证问题来核查回答的准确性。在这个例子中，可能会生成以下验证问题：
1.巴黎是哪个国家的首都？
2.法国的首都是哪个城市？
3.巴黎是法国的首都吗？
模型会独立回答这些问题，例如：
1.巴黎是法国的首都。
2.法国的首都是巴黎。
3.是的，巴黎是法国的首都。

本文研究了在各种任务中对这种方法的变化：从基于列表的问题，闭卷QA到长篇文本生成。