🌟 引言:语言模型的崛起
近年来,大型语言模型(LLMs)如ChatGPT、PaLM和LLaMA等在自然语言处理领域取得了显著的成功。这些模型不仅能够进行语言翻译、问答和摘要生成,还在事实核查等高风险领域展现了潜力。然而,尽管它们能够生成类似人类的文本,LLMs在一致性方面却饱受诟病。简单的语义变化可能导致模型产生不一致的回答,这反映出其在逻辑推理方面的脆弱性。
在本文中,我们将深入探讨LLMs在复杂逻辑查询中的一致性,特别是在事实核查任务中。我们将介绍一系列针对知识图谱(KGs)构建的逻辑事实核查数据集,评估现有LLMs在逻辑一致性方面的表现,并探讨如何通过监督微调来改善这一问题。
🧩 逻辑一致性:定义与重要性
逻辑一致性是指在逻辑操作下,模型的输出保持不变的特性。具体而言,当输入查询经过语义保留的变化时,模型的输出应保持一致。例如,在逻辑否定操作下,模型对原始查询和否定查询的回答应相反。我们将通过引入命题逻辑查询和逻辑规则来评估LLMs的逻辑一致性。
1. 逻辑操作的基本概念
在我们的研究中,我们关注三种基本的逻辑操作:否定(¬)、合取(∧)和析取(∨)。这些操作构成了命题逻辑的基础。我们假设,逻辑一致性的LLMs不仅能够在简单的事实查询中表现良好,还能在复杂的逻辑查询中保持一致性。
2. 逻辑一致性的重要性
逻辑一致性在许多应用场景中至关重要,尤其是在需要高可靠性的领域,如医疗、金融和法律等。一个逻辑一致的LLM能够在面对复杂查询时,提供可靠的答案,从而增强用户对系统的信任。
📊 事实核查的背景
事实核查是指通过智能系统(如LLMs)验证查询事实与基准知识的匹配程度。由于LLMs可能在未知事实上表现不一致,我们采用了检索增强生成(RAG)的方法,通过引用权威知识库来增强LLMs的回答能力。
1. 知识图谱的作用
知识图谱以结构化的方式存储大量事实,通常以“主题、关系、对象”的三元组形式表示。这些图谱为逻辑一致性评估提供了丰富的事实来源。我们构建了三个逻辑事实核查数据集:FreebaseLFC、NELLLFC和WikiLFC,旨在为社区提供标准化的评估基准。
2. 数据集的构建
每个数据集都源自其相应的知识图谱,经过转换以适应LLM的输入格式。我们采用了(事实,背景)对的形式,确保模型能够在给定背景的情况下进行有效的事实核查。
🔍 评估逻辑一致性
我们提出了一种新的逻辑一致性评估方法,针对命题逻辑查询进行测试。通过一系列实验,我们发现现有的LLMs在复杂查询中存在显著的一致性缺失,特别是在涉及多个逻辑操作时。
1. 一致性测量方法
我们定义了逻辑一致性的量化标准,具体包括:
- 否定一致性:对于简单事实 q q q,模型应满足 L L M (