Adaptive Chameleon or Stubborn Sloth: REVEALING THE BEHAVIOR OF LARGE LANGUAGE MODELS IN KNOWLEDGE CONFLICTS
----
自适应变色龙或顽固树懒:揭示大型语言模型在知识冲突中的行为
摘要:
通过向大型语言模型 (LLM) 提供外部信息,工具增强(包括检索增强)已成为解决 LLM 静态参数内存限制的有前途的解决方案。然而,LLM对此类外部证据的接受程度如何,尤其是当证据与他们的参数记忆相冲突时?我们对LLM在遇到知识冲突时的行为进行了首次全面的、受控的调查。我们提出了一个系统框架,从LLM中引出高质量的参数记忆,并构建相应的反记忆,这使我们能够进行一系列受控实验。我们的调查揭示了LLM看似矛盾的行为。一方面,与之前的观点不同,我们发现LLM可以高度接受外部证据,即使外部证据与他们的参数记忆相冲突,因为外部证据是连贯且令人信服的。另一方面,当外部证据包含一些与其参数记忆一致的信息时,LLM也会表现出强烈的确认偏差,尽管同时存在相互矛盾的证据。这些结果具有重要意义,对于工具和检索增强的LLM的进一步开发和部署值得仔细考虑。资源可在 https://github.com/OSU-NLP-Group/LLM-Knowledge-Conflict 获取。
1 引言
在海量语料库上进行预训练后,大型语言模型(LLM)(Brown et al., 2020; Chowdhery et al., 2022; Ouyang et al., 2022; OpenAI, 2022; 2023; Zeng et al., 2023; Touvron等人,2023a)已经形成了丰富的参数记忆,例如常识和事实知识(Petroni等人,2019;Li等人,2022;Zhao等人,2023)。然而,由于预训练语料库中的错误信息或参数记忆的静态性质,这种参数记忆可能不准确或变得过时(Liska et al., 2022; Luu et al., 2022),这也是导致幻觉(Elazar 等人,2021;Shuster 等人,2021;Ji 等人,2023)。工具 1(Schick 等人,2023;Qin 等人,2023)或检索增强(Mallen 等人,2022;Shi 等人,2023b;Ram 等人,2023)通过提供外部信息作为LLM的新证据,例如 ChatGPT 插件和 New Bing。然而,外部证据不可避免地可能与LLM的参数记忆相冲突。我们将与参数记忆相冲突的外部证据称为反记忆。在本文中,我们试图回答这个问题:LLM对外部证据,尤其是反记忆的接受程度如何?对这个问题的深入理解是工具增强LLM更广泛应用的重要基石。这不仅与克服LLM静态参数记忆的局限性有关,而且还与*前两位作者的贡献相同。谢健在 OSU NLP Group 实习期间完成的工作。 1在本文的其余部分,我们使用“工具增强的LLM”,因为检索器是一种工具,但工具不仅限于检索器(例如,考虑问答工具)。 1 arXiv:2305.13300v4 [cs.CL] 202 年 2 月 27 日在 ICLR 2024 上作为会议论文发表,涉及直接安全问题。例如,如果由开发人员或攻击者劫持的第三方工具故意返回虚假信息怎么办? LLM会被骗吗?
我们对LLM在遇到反记忆时的行为进行了首次全面的、受控的调查。一个关键的挑战在于如何构建反记忆。先前的工作采用了各种启发式方法,例如否定注入(Niu & Bansal,2018;Kassner 等人,2021;Gubelmann & Handschuh,2022)和实体替换(Longpre 等人,2021;Zhou 等人,2023),以及发现语言模型(无论大小)往往很顽固并坚持其参数记忆。然而,这种启发式的字级编辑会导致反记忆不连贯(参见第 4.1 节中的示例),这可能使LLM很容易检测到并因此忽略构建的反记忆。目前尚不清楚先前的结论如何转化为现实世界的场景,在现实世界的场景中,反记忆更加连贯和令人信服。
我们的调查得出了一系列有趣的新发现。我们强调以下几点:
• LLM非常容易接受外部证据(如果这是唯一的证据),即使它与他们的参数记忆相冲突。这与先前的智慧相矛盾(Longpre 等人,2021),我们将其归因于通过我们的框架构建的更加连贯和令人信服的反记忆。另一方面,这也表明LLM可能很容易被恶意(第三方)工具的虚假信息所欺骗。
• 然而,由于LLM的参数记忆有支持和矛盾的证据,他们表现出强烈的确认偏差(Nickerson,1998)并且倾向于坚持他们的参数记忆。这揭示了LLM在公正地编排多个相互冲突的证据方面面临的潜在挑战,这是生成搜索引擎遇到的常见情况。
2 相关工作
语言模型中的参数记忆经过预训练,语言模型已将大量知识内化到其参数中(Roberts et al., 2020;Jiang et al., 2020),也称为参数记忆。过去的许多研究都探索了语言模型中参数记忆的引发,例如常识或事实知识探索(Petroni 等人,2019;Lin 等人,2020;Zhang 等人,2021;West 等人,2022;Lin 等人,2020)。 Chen 等人,2023;Wang 等人,2023)。这种参数记忆可以帮助解决下游任务(Wang et al., 2021; Yu et al., 2023; Sun et al., 2023)。然而,之前的工作发现,由于模型的记忆能力有限,语言模型只能记住预训练期间接触到的知识的一小部分(Carlini et al., 2021; 2023)。此外,参数存储器可能会过时(Lazaridou et al., 2021; De Cao et al., 2021)。这种不正确和过时的参数记忆可能表现为幻觉(Elazar et al., 2021;Shuster et al., 2021;Ji et al., 2023)。尽管提出了一些方法来编辑语言模型中的知识(Dai et al.,2022;Meng et al.,2022;2023),但它们通常需要对模型权重进行额外修改,而不评估对模型其他方面(例如性能和性能)的影响。仅限于事实知识。
工具增强语言模型为了解决参数记忆的局限性,使用检索器等外部工具来用最新信息增强语言模型,即工具增强(Nakano et al., 2021; Yao et al., 2023) ;Qin 等人,2023;Schick 等人,2023;Lu 等人,2023)或检索增强(Guu 等人,2020;Khandelwal 等人,2020;Izacard 和 Grave,2021;Borgeaud 等人) ., 2022;Zhong et al., 2022)语言模型。这样的框架已经证明了其在增强大型语言模型方面的功效(Shi et al., 2023b; Ram et al., 2023; Mallen et al., 2022),并在 New Bing 和 ChatGPT 等实际应用中采用插件。不可避免地,外部证据可能与参数记忆发生冲突。然而,LLM在知识冲突场景中的行为仍未得到充分探索,解开它对于工具增强LLM的更广泛应用具有重要意义。
图 1:我们模拟知识冲突的框架。在第一步中,我们以闭卷 QA 方式引出LLM的记忆答案和参数记忆。在步骤 2 中,我们使用启发式规则构造记忆答案的反答案,ChatGPT 会为此生成带有指令的支持反记忆。为了保证证据质量,我们进行蕴含检查(步骤 3)和答案一致性(步骤 4)来过滤不合格的示例。所有实验均在零样本设置下进行,以避免演示引入的偏差。
知识冲突为了进行受控实验,通常使用基于参数存储器构建的反存储器来模拟知识冲突。诸如否定注入之类的启发式反记忆构建方法(Niu & Bansal,2018;Kassner et al.,2021;Petroni et al.,2020;Pan et al.,2021)已经被开发出来。此外,实体替换(Longpre et al., 2021;Chen et al., 2022;Si et al., 2023;Zhou et al., 2023)用其他实体替换参数记忆中所有提及的答案实体,以构建反实体。记忆。然而,这些方法仅限于字级编辑,导致反记忆的整体一致性较低。相反,我们指示LLM从头开始生成计数器内存,以确保高度一致性。
3 实验设置
在本节中,我们描述了从LLM中获取高质量参数记忆并构建相应的反记忆以及评估指标的框架。
3.1 数据集
继之前的工作(Longpre et al., 2021;Chen et al., 2022)之后,我们采用问答(QA)任务作为知识冲突实验的测试平台。除了基于实体的 QA 数据集(POPQA)之外,我们还包括一个多步骤推理数据集(STRATEGYQA),用于使实验中研究的问题多样化。具体来说,
POPQA(Mallen 等人,2022)是一个以实体为中心的 QA 数据集,包含 14K 问题。 POPQA 的数据源自 Wikidata 中的三元组。作者采用针对关系类型定制的自定义模板,通过替换知识三元组中的主题来构造问题。 POPQA 根据与问题中提到的实体相关的每月维基百科页面浏览量来定义问题的受欢迎程度。
• STRATEGYQA(Geva 等人,2021)是一个多步骤事实推理基准,需要将隐式问题分解为推理步骤。这些问题围绕维基百科术语构建,涵盖广泛的策略,这要求模型具有有效选择和整合相关知识的能力。语言模型预计会提供对或错的答案。
表 1:LLM以闭卷 QA 方式回答的正确性(图 1 中的步骤 1)。我们研究了八个LLM,包括三个闭源LLM和五个开源LLM。
3.2 参数记忆激发
图 1 中的步骤 1 说明了我们如何引出参数记忆:以闭卷 QA 方式,LLM在没有任何外部证据的情况下回忆他们的参数记忆来回答问题。具体来说,给定一个问题,例如“谁是 Google DeepMind 的首席科学家”,LLM被要求提供答案“Demis Hassabis”及其支持背景信息,详细说明 Demis 如何创立和领导 DeepMind。我们将详细背景投射为参数记忆,因为答案仅代表参数记忆关于参数记忆的结论。给定的问题。
表 1 显示了LLM在 POPQA 和 STRATEGYQA 上的闭卷结果。值得注意的是,当上下文中没有提供证据时,LLM可能会回答“未知”,特别是在 ChatGPT 中。这种答案弃权(Rajpurkar et al., 2018)表明LLM无法回忆起与给定问题相关的有效记忆,因此我们丢弃它们。为了全面起见,我们还将LLM错误回答的例子保留在闭卷范式中,因为错误答案和相关记忆也存储在模型参数中。
3.3 计数器存储器构造
3.3 反记忆构建 如图 1 所示,在步骤 2 中,我们将记忆答案“Demis Hassabis”重新构建为反答案(例如“Jeff Dean”)。具体来说,对于 POPQA,我们将记忆答案中的实体替换为相同类型的实体(例如,从 Demis 到 Jeff);而在 STRATEGYQA 中,我们翻转记忆答案(例如,从肯定句到否定句)。通过反答案“Jeff Dean”,我们指示 ChatGPT2 编造 Jeff Dean 担任 DeepMind 首席科学家的支持证据。我们将这种与参数记忆相冲突的证据称为反记忆。
由于反记忆是由强大的生成式 LLM 从头开始生成的,因此与之前在参数记忆上执行的单词级编辑方法(Longpre 等人,2021;Chen 等人,2022)相比,它更加连贯。生成的参数记忆和反记忆都可以作为后续知识冲突中LLM实验的外部证据。有关每个数据集中证据构建的更多详细信息,请参阅附录 B.1。
3.4 答案证据蕴涵检查
一个理想的证据应该有力地支持它的答案。例如,关于Demis和DeepMind的参数记忆应该明确支持Demis是DeepMind首席科学家的相应记忆答案。同样,反记忆也应该清楚地支持相应的反答案。因此,对于图 1 所示的步骤 3,我们利用自然语言推理 (NLI) 模型进行支持检查,以确保证据确实包含答案。具体来说,我们使用最先进的 NLI 模型 DeBERTa-V2 (He et al., 2021)3 来确定参数记忆和反记忆是否都支持其相应的答案。我们只保留两个答案都支持的示例以供后续实验使用。
表 2:最终数据集中的示例。参数内存和计数器内存都是由 ChatGPT 生成的。它们是连贯的,即使事实上不正确,也会给人一种正确的错觉。
为了确保所选 NLI 模型的可靠性,我们手动评估了 200 个随机示例,观察到模型的准确率达到 99%。详细内容请参见附录B.5。
3.5 记忆答案的一致性
我们采用另一种检查(图1的步骤4)来进一步确保数据质量。如果我们引出的参数记忆确实是LLM的内在信念,那么将其明确作为证据呈现应该会让LLM提供与闭卷设置中相同的答案(步骤1)。因此,在基于证据的 QA 任务格式中,我们使用参数记忆作为唯一证据,并指示LLM再次回答同一问题。例如,考虑到关于Demis和DeepMind的参数记忆,LLM应该与之前的记忆答案有一致的反应,即Demis是DeepMind的首席科学家。
然而,表3中的答案不一致结果表明,当步骤1中获得的参数记忆被明确呈现为证据时,LLM仍然可能改变他们的答案。这表明LLM对这种参数记忆的内部信念可能并不坚定(例如,可能存在基于LLM同样合理的竞争答案)。我们过滤掉这样的例子,以确保剩下的例子能够很好地捕捉LLM的牢固参数记忆。
经过蕴涵和答案一致性检查后,剩下的例子很可能代表了牢固的参数记忆和高质量的反记忆,为后续的知识冲突实验奠定了坚实的基础。最终 POPQA 数据的一些示例如表 2 所示,最终数据集的统计数据如表 4 所示。有关步骤 3 和 4 以及示例的更多详细信息,请参阅附录 B.2。
3.6 评估指标
LLM 的一代可能同时包含记忆答案和反答案,这对自动确定 LLM 的确切答案提出了挑战。为了解决这个问题,我们通过提供一些选项作为可能的答案,将自由形式的 QA 转换为多项选择的 QA 格式。这限制了生成空间,并有助于确定LLM提供的答案。具体来说,对于两个数据集中的每个问题,LLM被要求从记忆答案 (Mem-Ans.)、反答案 (Ctr-Ans.) 和“不确定”中选择一个答案。此外,为了量化LLM坚持参数记忆的频率,我们采用记忆率指标(Longpre et al., 2021;Chen et al., 2022):
表 3:闭卷结果(步骤 1)与参数记忆循证 QA(步骤 4)之间的答案不一致率。
表 4:每个LLM的最终示例数量。LLM之间的差异是由于他们通过框架的不同输出。
其中fm是记忆答案的频率,fc是反答案的频率。较高的记忆比率意味着LLM更多地依赖于参数记忆,而较低的比率则表明更频繁地采用反记忆。
4 实验
4.1 单一来源证据
我们在单一来源证据环境中对LLM进行实验,其中反记忆是向LLM提供的唯一证据。当LLM使用返回单一外部证据的工具(例如维基百科 API)进行增强时,就会发生这种知识冲突(Yao et al., 2023)。特别是,对于反记忆构建,我们将应用 1)实体替换反记忆方法,这是之前工作中广泛应用的策略,2)我们基于生成的方法。
当遇到基于实体替换的反记忆时,LLM很顽固。继之前的工作(Longpre et al., 2021;Chen et al., 2022)之后,我们用相同类型的随机实体替换参数记忆中完全匹配的地面实况实体提及。然后,反记忆被用作LLM回答问题的唯一证据。这是一个例子:
图 2 显示了这种方法在 POPQA 数据集上的结果。值得注意的是,尽管该指令明确指导LLM根据给定的反记忆回答问题,但LLM仍然坚持其参数记忆,特别是对于三个闭源LLM(ChatGPT、GPT-4 和 PaLM2)。这一观察结果与之前的工作一致(Longpre 等人,2021)。原因可能源于通过替换建立的证据的不连贯性:在给定的例子中,尽管“Washington D.C.”成功替换为“伦敦”,包含华盛顿纪念碑和美国的上下文仍然与原始实体高度相关,这阻碍了LLM生成伦敦作为答案。此外,当将 Llama2-7B 和 Vicuna-7B 与同系列中较大的同类(即 Llama2-70B 和 Vicuna-33B)进行比较时,我们观察到较大的LLM更倾向于坚持其参数记忆。我们假设较大的LLM由于其记忆和推理能力增强,对不连贯的句子更敏感。
LLM非常容易接受生成的相干反记忆。为了缓解上述反记忆的不连贯问题,我们指示 LLM 按照上述步骤直接生成连贯反记忆(图 1)。图2显示了基于生成的计数器内存的实验结果,从中我们可以得到以下观察结果:
首先,如果外部证据以连贯的方式呈现,LLM实际上很容易接受外部证据,即使它与他们的参数记忆相冲突。这与先前的结论(Longpre 等人,2021)以及图 2 中所示的实体替换反记忆的观察结果相矛盾。如此高的接受度反过来表明,通过我们的框架构建的反记忆确实更加连贯和令人信服。我们手动检查了 50 个顽固(即“Mem-Ans”)案例,发现其中大多数是由于难以推翻的常识或缺乏强烈的直接冲突而造成的。详细分析参见附录B.3。其次,许多生成的反记忆都是虚假信息,会误导LLM得出错误的答案。令人担忧的是,LLM似乎很容易受到此类虚假信息的影响,并且很容易被其欺骗。探索在使用外部工具时防止LLM遭受此类攻击的方法值得未来研究的高度关注。第三,我们生成的反记忆的有效性还表明,LLM可以产生令人信服的虚假或错误信息,甚至足以误导他们自己。这引发了人们对LLM可能被滥用的担忧。
4.2 多源证据
多源证据是一种向LLM提供支持或与参数记忆相冲突的多条证据的设置。这种知识冲突可能经常发生,例如,当LLM通过具有多样化甚至网络规模信息源的搜索引擎进行增强时。我们从证据的不同方面(包括受欢迎程度、顺序和数量)研究LLM的证据偏好。默认情况下,如果没有另外指定,第 4.2 节中所有实验的证据顺序都是随机的。LLM在更流行的知识中表现出更强的确认偏差。图 1 中的步骤 5 说明了当参数记忆和反记忆都作为证据出现时,我们如何指导LLM回答问题。图 3 显示了不同 LLM 的记忆率。 POPQA 上的问题受欢迎程度。
首先,与仅将生成的反记忆作为证据(单一来源)提供时相比,当参数记忆也作为证据(多源)提供时,两个LLM都表现出显着更高的记忆率,特别是在 GPT-4 的情况下。换句话说,当面对相互矛盾的证据时,LLM通常更喜欢与他们的内部信念(参数记忆)一致的证据,而不是相互矛盾的证据(反记忆),表现出强烈的确认偏差(Nickerson,1998)。这些特性可能会阻碍工具增强LLM中外部证据的公正使用。其次,对于有关更受欢迎实体的问题,LLM表现出更强的确认偏差。特别是,GPT-4 对最热门问题的记忆率为 80%。这可能表明LLM对有关更受欢迎的实体的事实形成了更强烈的信念,可能是因为他们在预训练期间更频繁地看到这些事实和实体,这导致了更强的确认偏差。
LLM对证据顺序表现出明显的敏感性。之前的工作已经表明,工具增强语言模型倾向于选择排名靠前的证据(BehnamGhader 等人,2022)以及LLM中的顺序敏感性(Lu 等人,2022)。为了揭秘LLM中证据呈现顺序的影响,我们分别将参数记忆和反记忆作为多源设置中的第一个证据。作为参考,从两者中随机选择的第一个证据的结果也报告在表5中。为了与流行性实验一致,我们使用相同的LLM。
我们观察到,除了 GPT-4 之外,其他模型都表现出明显的阶次敏感性,波动超过 5%。尤其值得关注的是PaLM2和Llama27B的变异超过30%。当首先提出证据时,ChatGPT 倾向于支持它;然而,PaLM2 和 Llama2-7B 倾向于后来的证据。对于工具增强的LLM来说,这种对上下文中证据的顺序敏感性可能不是一个理想的属性。默认情况下,证据的顺序在本节的其他实验中是随机的。
LLM随波逐流,选择有更多证据的一方。除了LLM生成的证据(参数记忆和反记忆)之外,我们还扩展到人工制作的证据,例如维基百科。这些高度可信且易于理解的人类书写文本很可能被现实世界的搜索引擎工具检索为证据。我们采用 POPQA 中的维基百科段落,并通过 STRATEGYQA 手动注释事实并进行后处理,以确保确实可以推导出真实答案。更多处理细节请参见附录B.4。
为了平衡支持记忆答案和反答案的证据数量,我们通过3.3节中提到的方法创建额外的证据,目标是在参数记忆和反记忆证据之间最多实现2:2的平衡分配。表6显示了参数记忆对齐证据和反记忆不同比例下的记忆率。我们有三个主要观察结果:1)LLM通常提供得到大多数证据支持的答案。支持特定答案的证据比例越高,LLM返回该答案的可能性就越大。 2)尽管保持一致的相对比例(例如,1/2 与 2/4),但随着参数记忆证据数量的增加,确认偏差变得越来越明显。 3) 与其他LLM相比,GPT-4 和 Vicuna-33B 在所有证据比例上都不太容易接受反记忆。特别是,尽管有更多证据支持反答案(比率 1/3),这两个模型仍然明显坚持其参数记忆。这些观察结果再次表明了LLM的确认偏差。
LLM可能会被不相关的证据分散注意力。我们进一步对更复杂的知识冲突场景进行实验。我们对这个问题感兴趣:搜索引擎等工具可能会返回不相关的证据——如果向LLM提供不相关的证据怎么办?当提出不相关证据时,LLM应 1) 如果没有证据明确支持任何答案,则弃权;2) 忽略不相关证据并根据相关证据进行回答。首先,我们将 Sentence-BERT 嵌入4(Reimers & Gurevych,2019)检索到的排名靠前的不相关段落视为不相关证据(即与问题中显示的实体无关的句子)。 POPQA 的实验结果如表 7 所示。我们发现:1)仅提供不相关的证据,LLM可能会因此而分心,给出不相关的答案。这个问题在 Llama2-7B 中尤其令人担忧。与此同时,随着更多不相关的证据被引入,LLM不太可能根据他们的参数记忆来回答。 2)在提供相关证据和不相关证据的情况下,LLM可以在一定程度上过滤掉不相关的证据。这一观察结果与 Shi 等人的研究一致。 (2023a) 关于LLM如何可能因数学问题中不相关的上下文而分心。此外,我们发现随着不相关证据数量的增加,这种能力会减弱,特别是在 Llama2-7B 的情况下。
表 7:ChatGPT 和 Llama2-7B 在不同数量的相关(即参数记忆和反记忆)和不相关证据(Irr.)下的答案分布。在这种情况下,LLM可能会生成不相关的答案(Irr-Ans.)。 “有相关证据”意味着我们提供参数记忆和反记忆作为证据。在“无相关证据”的设定下,“-”表示没有反答案,与缺乏反记忆的前提一致。
5 结论
在这项工作中,我们提出了一个系统框架来引出LLM的参数记忆,构建对应的反记忆,并设计一系列检查来完善其质量。以这些参数记忆和反记忆作为外部证据,我们模拟综合场景作为受控实验,以揭示LLM在知识冲突中的行为。我们发现,当反记忆是以连贯方式呈现的唯一证据时,LLM非常容易接受反记忆。然而,当参数记忆的支持和矛盾证据都存在时,LLM也会表现出对参数记忆的强烈确认偏差。此外,我们还表明,LLM的证据偏好受到证据的流行度、顺序和数量的影响,而这些都可能不是工具增强LLM所需的属性。最后,我们框架的有效性还表明LLM可以产生令人信服的错误信息,从而带来潜在的道德风险。我们希望我们的工作能够为未来理解、改进和部署工具增强的LLM提供可靠的评估测试平台和有用的见解。
道德声明
我们的研究强调了一个严重的问题:LLM可能会被指示编造连贯且令人信服的虚假信息。这强调了如果不加以控制,这些模型可能会被滥用。作为研究人员,我们有责任解决这个紧迫的问题。与滥用LLM相关的风险需要强有力的保障和预防措施,需要更广泛的研究界的共同努力。为此,我们致力于谨慎分发研究产生的数据,确保其严格用于研究目的。我们的目标是降低风险,同时最大限度地提高LLM提供的好处。
再现性声明
我们的实验利用了通过 API 访问的三个闭源LLM以及五个开源LLM。我们通过在附录 C 中包含实验中使用的提示来提高可重复性。至于闭源 LLM 的版本,我们在所有实验中使用了 PaLM2 的 ChatGPT-0301、GPT-4-0314 和 Chat-Bison-001。测试。