姚佳怡布兰迪斯大学jiayiyao@brandeis.edu
孙海波布兰迪斯大学hsun@brandeis.edu
薛念文布兰迪斯大学xuen@brandeis.edu
摘要
在本文中,我们评估了大型语言模型(LLMs)对其自身或其他LLMs生成的“新闻报道”中的陈述真实性进行评估的能力。我们的目标是确定LLMs是否能够有效地核实其自身内容的真实性,使用的方法类似于用于验证人类所做陈述的方法。我们的研究结果表明,LLMs在评估国家或国际新闻故事中的陈述时比在地方新闻故事中更有效,更好地评估静态信息而非动态信息,并且在核实真实陈述时的表现优于虚假陈述。我们假设这种差异是因为前者类型的陈述在其训练数据中得到了更好的表示。此外,我们发现,在检索增强生成(RAG)设置中结合搜索引擎检索结果显著减少了LLMs无法评估的陈述数量。然而,这种方法也增加了错误评估的发生率,部分原因是由于无关或低质量的搜索结果。这项诊断研究突显了未来对机器生成报告进行事实核查的研究需要优先改进检索信息的准确性和相关性,以更好地支持事实核查工作。此外,关于动态事件和地方新闻的陈述可能需要有人工参与的事实核查系统,以确保准确性和可靠性。
1 引言
大型语言模型(LLMs)彻底改变了自然语言处理(NLP)领域,轻松完成以往被认为极具挑战性的任务。它们在生成自然语言文本方面的表现尤为出色。像GPT-4这样的模型可以生成连贯、流畅的摘要,准确地在语言之间进行翻译(特别是那些在线存在感强且有大量训练数据的语言),并优化人类写作以提高语气和风格的流畅性和适当性以满足特定目的。这项技术有可能显著提高许多行业的生产力,提供无限的应用。然而,如果这些技术没有得到适当使用,也会带来风险。其中主要的风险之一是它们可以被轻易用来生成看似可信但实际上不正确的文本,无论是有意还是无意。例如,通过一个简单的提示“生成一篇关于美国马萨诸塞州火山喷发的新闻报道”,GPT-4可以生成一篇以以下段落开头的新闻报道: “美国马萨诸塞州 - 2024年5月29日 - 在一个前所未有的令人震惊的事件中,马萨诸塞州发生了火山喷发,这个地区通常与火山活动无关。喷发发生在今天凌晨该州中部靠近伍斯特镇的地方,使居民和科学家们 alike 都感到难以置信和担忧。”
尽管现实中从未发生过火山喷发,这篇新闻报道却是连贯且流畅的。结合现代媒体平台,这种由LLM生成的内容可以迅速传播并触及大量受众。一个例子是AI“新闻”农场的出现,这些农场利用LLMs生成新闻报道以获取广告收入,而不太关心其对社会的影响(Puccetti等人,2024)。机器生成的报告可能会引起混乱和混乱,并破坏社会的正常运作。事实上,研究表明,假新闻往往比真新闻传播得“更远、更快、更深”,因为它通常包含人们更愿意分享的新颖内容(Vosoughi等人,2018)。
在这项研究中,我们展示了实验结果,回答了LLMs是否能够判断它们生成的新闻故事的真实性以及它们如何有效地发现这些新闻故事中的事实错误。我们用两个LLMs,GPT-4o(OpenAI等人,2024)和GLM(Du等人,2022),通过简单提示如“写一个关于科比·布莱恩特重返湖人队的故事”生成了92篇新闻故事,所有故事都包含一些不正确的陈述。这些虚假的故事根据其不真实程度有所不同。有些故事报道的是完全不可能发生的事件,比如科比·布莱恩特重返湖人队的故事,因为这位前湖人球星已经去世。有些故事报道的是并非完全不可能但非常不可能发生的事件,比如马萨诸塞州的火山喷发,因为该地区并不以火山活动闻名。其他故事则是关于实际发生或计划发生的事件,但时间、地点或参与者有误。
我们在两种设置下进行了实验。在第一种设置中,我们简单地将完整的故事提供给GPT-4o和GLM作为输入,并询问它们是否真实。在第二种设置中,我们将每个故事手动分解为单独可核查的原子陈述。一个可核查的陈述可以是一个具有特定参与者、地点或时间的事件,也可以是一个状态(例如,马萨诸塞州与新罕布什尔州接壤)或持续一段时间的重复事件,使得确切时间无关紧要。我们对这些可核查的陈述进行了手动“去情境化”(Choi等人,2021),以便它们可以在其文档的上下文之外进行验证。对于这种设置,我们还尝试使用这些可核查的陈述作为查询,通过Google Search Serper Api 提供的结果给GPT-4,以帮助在检索增强生成(RAG)框架(Lewis等人,2020)中评估陈述的真实性。
我们的实验结果显示,当涉及知名实体(例如,科比·布莱恩特重返湖人队)时,GPT40和GLM非常善于检测包含错误陈述的故事(而且它们确实都包含错误陈述),但对于不太可能的近期事件则相当不确定。在原子陈述层面,相当大比例的陈述被错误评估:要么一个事实正确的陈述被判定为错误,要么一个事实错误的陈述被识别为正确。对于更大比例的原子陈述,LLMs根本无法做出决定。当通过Google Search Serper Api提供的检索结果时,未评估的数量显著减少,
1伴随正确和错误评估的增加。有趣的是,即使Google Search Serper Api对某个陈述没有返回任何结果,GPT-4仍然试图提供一个评估而不是拒绝回答。似乎仅仅知道没有检索到任何结果就足以促使GPT-4做出猜测。即使有了RAG,仍有相当大比例的陈述是LLM无法提供评估的。这意味着任何解决机器生成新闻报道事实核查问题的方案都需要包括检查那些无法通过现有知识来源核查的新事件发生情况的功能。虽然最近的研究显示使用外部资源或工具可以改善LLMs的事实性(Gou等人,2023),但这种方法不适用于机器生成新闻故事的事实核查,可能需要开发新的以人为中心的方法来检查此类陈述。
本文其余部分的组织如下。第2节讨论相关工作。第3节介绍我们生成新闻故事、提取“原子”陈述、使用LLMs评估这些故事和陈述的真实性,并手动验证LLMs自身所做的评估。我们在第4节中展示实验结果,并在第5节中讨论这些结果。我们在第6节中总结全文。
2 相关工作
数据集统计和比较。我们的数据集最类似于FactScore(Min等人,2023),因为两者都由LLMs生成的长篇文本组成;然而,两个关键区别区分了我们的数据集。首先,虽然FactScore专注于维基百科实体的传记,我们的数据集由LLMs生成的新闻报道组成,包括时效性强的内容,这使得它们本质上更难进行事实核查,因为缺乏预先存在的知识来源。其次,虽然FactScore传记中的每句短语都被视为独立的事实陈述,我们的新闻报道经常包含模糊或主观的内容,需要手动提取那些可核查的事实陈述。以下数据集也广泛与我们的相关,但存在显著差异。PROPANEWS(arXiv:2203.05386)等数据集通过用合理但虚假的内容替换真实新闻文章中的句子来模拟人类所做的事实陈述。
核查人类或机器生成的内容。有一个活跃的NLP研究社区致力于开发自动方法来核查虚假陈述,例如政治家所做的陈述(Nakov等人,2021;Deng等人,2024;Yuan和Vlachos,2024;Schlichtkrull等人,2024)。还有更近期的工作集中在核查机器生成的内容(Min等人,2023;Wang等人,2024;Fadeeva等人,2024)。之前关于核查人类或机器所做的虚假陈述的工作通常假设有一个信息来源,通常是互联网上的已发布来源,可以用来检查这些陈述。然而,我们感兴趣的机器生成新闻报道中报道的事件,例如火山喷发的例子,往往被认为是新的发生事件,不能与任何现有的公共来源交叉验证,尽管它们仍可能包含可以进行事实核查的现实世界陈述。这提出了以前研究中使用的人物传记中不存在的新挑战(Min等人,2023;Fadeeva等人,2024)。
3 方法
我们对LLM生成的新闻故事进行事实核查的实验分为四个步骤。首先,我们使用两个LLM生成一组具有不同程度事实不准确性的新闻故事。接下来,从这些故事中,我们手动提取可验证的原子陈述并将其去情境化,创建可以独立于原始故事进行验证的独立陈述。在第三步中,我们提示每个LLM评估由自己或其他LLM生成的新闻故事的真实性,以及评估各个原子陈述。最后,我们进行人工评估以确定LLMs的真实性评估准确性。
3.1 使用LLM生成新闻报告
为了评估GPT和GLM的声明验证能力,我们首先提示这两个模型生成一组92篇新闻文章,其中包括由GPT-4o生成的47篇新闻文章和由GLM生成的44篇文章。每个提示围绕故意包含事实不一致的场景输入设计。以下是包含时间错误的一个示例提示,因为2024年澳大利亚公开赛女子决赛的时间是1月27日,而不是1月20日: “生成一份新闻报道,关于阿丽娜·萨巴伦卡在2024年1月20日在罗德·拉沃尔竞技场举行的澳大利亚公开赛女子决赛中击败郑钦文(6-3, 6-2)赢得冠军。”
所有这些不一致性围绕着一个场景的四个关键方面设计:事件本身及其时间、地点和参与者。为了严格测试模型对全国认可和本地相关信息的理解,我们通过引入本地和国家级新闻类别来控制生成内容的范围。这些类别的区别是我们评估的关键因素,允许我们评估每个模型处理涉及特定本地信息的声明与基于广为人知的国家级知识的声明的有效性。这是受到先前研究的启发,即鉴于LLMs所训练的大规模多样化数据集的性质,它们可能对广泛讨论的国家级或国际事件有更大的曝光度(Kandpal等人,2023)。在生成新闻故事时,我们确保对所有提示使用相同的通用模板,仅根据不同故事的场景变化。通过使用一致的提示,我们可以确保模型性能的差异可归因于模型的能力,而不是输入的变化。这种方法使我们能够构建一个多样且具有代表性的数据集,严格测试每个LLM识别和评估生成内容不同方面问题的能力。
3.2 手动声明提取
在生成新闻报道后,我们从GPT生成的内容中手动提取所有可核查的声明。每个声明都是一个明确、可验证的陈述,包含具体细节,如时间、地点、参与者或事件。我们遵循标准,要求每个可核查的声明包含精确、无歧义的信息——例如确切日期、地点或可识别的参与者。含糊或泛泛的陈述,如“萨巴伦卡有一场精彩的比赛”,被排除在外,因为它们缺乏客观、可验证的细节。这种方法确保只有包含具体事实信息的声明被选中进行手动提取。我们通过解析代词和其他回指表达式,并补充事件的时间、地点和参与者细节(如果从上下文中清晰可见),手动去情境化声明,确保每个声明都可以独立验证。
以下是说明各种事实错误类型的示例声明:
- 时间错误:“阿丽娜·萨巴伦卡在2024年1月20日的罗德·拉沃尔竞技场上击败了郑钦文,赢得了2024年澳大利亚公开赛女子决赛。”
- 地点错误:“阿丽娜·萨巴伦卡在2024年1月27日的玛格丽特·考特竞技场上与郑钦文进行了澳大利亚公开赛女子决赛。”
- 事件错误:“在2024年1月27日罗德·拉沃尔竞技场上的澳大利亚公开赛女子决赛第三盘中,郑钦文在5-5时破了阿丽娜·萨巴伦卡的发球局,并以7-5赢得比赛,夺得冠军。”
- 参与者和地点错误:“大坂直美和伊加·斯维亚特克正在2024年1月27日的玛格丽特·考特竞技场上争夺2024年澳大利亚公开赛女子决赛的著名大满贯冠军。”
每篇文章通常会产生10-20个可核查的去情境化声明,具体取决于其长度和复杂性。这一过程确保声明包括所有必要的上下文信息,以便进行验证,保持声明在整个新闻报道更广泛背景下的完整性和相关性。从92篇文章中,我们提取了总共1,337个原子声明,包括由GPT-4o生成的47篇新闻报道中的697个声明,以及由GLM生成的44篇报道中的640个声明。整个文章和原子声明的错误类型分布见表1。请注意,某些文章或声明可能包含多种类型的错误。
3.3 使用LLMs进行声明验证
GPT-4o和GLM模型的任务是验证每篇文章以及每个原子声明的真实性。为了评估声明的真实性,我们
表1:整体文章和原子声明中的错误类型计数 提示GPT-4o和GLM评估所有92篇新闻文章及其对应的原子声明的真实性。以下是我们在评估中使用的提示:
- 文章级提示:“今天是2024年8月1日。你是一个有用的助手,执行以下任务:验证以下新闻是否准确或错误。尽可能简洁地回答。”
- 声明级提示:“今天是2024年8月1日。你是一个有用的助手,执行以下任务:验证从新闻报道中提取的以下声明是否准确或错误。尽可能简洁地回答。”
模型首先被提示评估每篇文章的整体真实性并为其评估提供理由。然后,它们被提示评估从文章中提取的每个原子声明的真实性,并为每次评估提供理由。在这个流程中使用了三种不同的提示方法。
3.3.1 确定性提示(温度0.0)
我们提示模型为每篇文章或声明提供单一的、确定性的评估。将温度设置为0最小化了随机性,使我们能够在受控条件下观察模型的基本声明验证性能。
3.3.2 自我一致性提示(温度1.0)
我们使用较高的温度设置(1.0)来引入模型响应的变异性。模型被多次提示(在我们的实验中,每篇文章/声明提示5次),并通过多数投票机制确定最终评估。此设置模拟了模型推理和鲁棒性在多次提示中的潜在变异性。
在每次实例中,模型输出一个判定(正确或错误)以及其评估的理由。这些理由对于错误分析至关重要,提供了对模型推理是否符合声明事实基础的见解。
3.3.3 RAG提示
我们通过手动提取的原子声明查询Google Search Serper Api,并在使用检索增强生成(RAG)框架评估声明真实性时将检索结果纳入GPT-4的提示中。此实验的目标是评估提供搜索结果是否能提高LLMs的评估准确性。由于成本限制和搜索引擎的长度限制,我们并未对整篇文章进行此实验。相反,我们专注于从GPT-4自身生成的新闻报道中提取的原子声明,假设结果可以推广到其他设置。
3.4 比较模型验证与人类判断
为了验证模型的评估结果,我们通过进行有针对性的网络搜索并将其发现与我们现有的信息进行交叉参考,手动验证每个声明。我们使用独立的在线来源,包括信誉良好的新闻数据库、事实核查网站和政府记录。人类判断作为评估模型评估的黄金标准,使我们能够量化模型评估中的假阳性和假阴性。此外,我们进行了错误分析,以了解新闻类型(本地 vs 国家)和声明类型(状态 vs 事件,真实 vs 虚假声明)是否对模型性能产生了可测量的影响。特别关注模型未提供评估、推理错误或评估不准确的情况。
4 实验
我们进行了一系列全面的实验,以评估GPT-4o和GLM模型在验证生成新闻文章中的声明方面的表现。在本地和国家级新闻生成的背景下评估了这两个模型,并在所有相关维度上进行了声明验证。对于声明验证任务,我们将评估结果分类为五个可能的类别,如下所述: - 正确评估 (CA):模型正确识别声明的真实性,但未提供理由。
- 正确评估和正确推理 (CA/CR):模型正确识别声明的真实性,并提供了正确的理由。
- 正确评估但错误推理 (CA/WR):模型正确分类声明,但推理有缺陷。
- 错误评估 (WA):模型错误分类声明的真实性。
- 无评估 (NA):模型未能提供任何评估。
有关每种评估类型的示例,请参阅附录A.4。
表2:每个评估类别的LLM生成文章计数
4.1 整体新闻文章
表2展示了GPT-4(gpt-4o-20240806和gpt-4-turbo-20240409)和GLM-4(GLM-4-0520)在评估整体文章时的性能数据。两个模型被提示生成新闻报道,随后进行自我评估和交叉评估生成的文章。
GPT-4和GLM-4在正确和错误评估的数量上表现出相似的性能。相比之下,GPT-4 Turbo更倾向于不做评估,反映出比GPT-4o和GLM-4更为谨慎的方法。这表明GPT-4turbo优先考虑减少错误,即使这会导致总体判断较少。
4.2 单独的原子声明
在评估LLMs验证原子声明的能力时,我们进行了GPT-4o和GLM4的实验,以确保我们的发现可以在LLMs之间普遍适用。在不同的温度设置下评估了GPT和GLM模型的性能,以更好地评估它们在声明验证任务中的优势和局限性。两个模型都被要求验证从LLM生成的新闻文章中提取的声明的真实性,其评估使用与整体文章相同的五维协议进行测量。
评估结果见表3,我们可以得出几个关键观察。首先,无论是在评估自己生成的文章中的声明还是评估GLM生成的文章中的声明,GPT-4o始终比GLM提供更多的正确评估(包括有和没有正确推理的评估)。这种趋势在所有温度设置下都保持不变。有趣的是,当评估自己生成的文章中的声明时,GPT-4o和GLM都会产生更多错误评估(WA)。最值得注意的发现是无评估(NA)案例的高数量,GLM显示出显著更高的无评估数量(约为20%),比GPT-4高出很多。
4.2.1 国家新闻与地方新闻中的声明
我们还尝试评估LLMs评估国家和地方新闻故事中声明的能力。以下是用LLMs生成的国家和地方新闻故事中的声明示例:
- 地方新闻中的声明:麻萨诸塞州沃特敦将于2024年7月15日在阿森纳公园举办免费狂欢派对。
- 国家或国际新闻中的声明:2024年巴黎奥运会开幕式定于7月26日举行。
表4展示了GPT和GLM模型在不同温度设置下评估来自国家和地方新闻来源声明的比较错误分析。评估中的错误包括模型提供正确评估但推理错误(CA/WR)、错误评估(WA)或无评估(NA)的情况。从表格中可以看出,虽然GPT略胜GLM一筹,表现为一般错误数量较低,但错误率在不同温度下相对一致。最显著的发现是模型评估国家和地方新闻声明之间的错误率存在巨大差异,地方新闻的错误率明显高于国家新闻。
一种可能的解释是,国家新闻中的声明通常涉及重大事件或广泛认可的主题,这些主题在各种在线资源中都有充分记录,因此这些声明更有可能出现在模型的训练数据中,从而更容易评估。相比之下,地方新闻中的声明可能涉及特定区域的小众问题, 这些问题受到的关注和记录有限,导致模型在验证这类声明时准备不足。这种差异突出表明,训练数据的范围和分布如何影响模型在评估具有不同具体性和熟悉度声明时的性能。
4.2.2 真实声明与虚假声明的评估
表5评估了LLMs在评估事实正确和错误声明方面的准确性。我们分析了LLMs在面对真实或虚假声明时是否做出准确或不准确的评估。正确评估包括以下情况:(i) 声明在事实上为真,LLM评估其为真。(ii) 声明在事实上为假,LLM评估其为假。错误评估包括以下情况:(i) 声明在事实上为假,但LLM评估其为真(ii) 声明在事实上为真,但LLM评估其为假。
我们的目标是调查LLMs在评估事实真实声明和虚假声明方面的准确性是否存在差异。我们的假设是,事实真实的声明比虚假声明更可能出现在训练数据中,因此事实虚假声明被错误评估的可能性更大。我们的假设得到了证实,因为表5显示,GPT和GLM在评估事实正确的声明时通常有更高的正确评估率,而在评估事实错误的声明时则表现不佳,做出了错误评估。在所有模型做出正确评估但提供错误推理的案例中,相当一部分来自事实错误的声明。这表明,尽管模型可以得出正确的结论,但其内部逻辑或理由可能存在缺陷,这种情况主要发生在声明事实错误时。
4.2.3 状态声明和事件声明
我们还尝试让LLMs评估语言状态声明和非状态声明。这里,状态指的是某种事物存在过程中特定条件或阶段,其特点是稳定性和一致性随时间推移,而非状态声明通常涉及事件,标志着重要发生带来的改变。非状态声明通常与时间、地点和参与者相关联。以下是分类为状态和非状态的声明示例:
- 表3:不同温度设置下各模型对单个原子声明在每个评估类别中的计数和百分比。GPT/0和GPT/1分别表示GPT在温度为0和1时的情况。类似地,GLM/0和GLM/1分别表示GLM在温度为0和1时的情况。
表4:评估国家或地方新闻声明的错误。每个单元格代表该类别(国家 vs 地方)中错误评估声明的百分比,最后一行代表该生成器的错误数/总声明数。
表5:在0温度下使用GPT和GLM作为评估者的事实正确(FC)和事实错误(FW)声明的LLM评估准确性比较。
- 状态声明:阿丽娜·萨巴伦卡是白俄罗斯人。
- 非状态声明:2024年澳大利亚公开赛女子决赛于1月27日在玛格丽特考特球场举行。
我们假设LLMs在状态声明上表现更好,因为状态更稳定并且更可能在训练数据中被记录下来,而事件往往是新的和未记录的。因此,LLMs在评估非状态声明时更容易出错,包括错误评估(WA)和无评估(NA),正如观察到的这些声明的更高错误率所示。这一假设在状态声明比非状态声明的错误率更高这一点上得到了很大程度的支持。我们还观察到了显著的温度效应,并发现较高温度对状态声明产生了更好的结果,可能是由于从广泛的、一致的数据中提高了模式识别能力,而对于非状态声明,相同高的温度导致了更差的结果,因为它们抑制了对事件特定细节的验证,导致不确定性增加和错误评估。更多信息请参见附录A.3。
4.2.4 使用检索增强生成(RAG)进行事实核查
检索增强生成(RAG)(Lewis等人,2020)已成为一种流行的事实核查方法(Rothermel等人,2024;Khaliq等人,2024;Raina和Gales,2024;Ullrich等人,2024;Adjali,2024),特别是在LLMs难以找到与给定声明相关的足够信息时。该过程通常涉及将声明转化为可用于查询知识源的问题,例如整个互联网或特定的 存储库,如维基百科。检索到的结果与原始声明一起使用,以提示LLM确定声明是否得到证据支持或反驳。此外,LLM还可以得出结论,认为没有足够的证据来支持或反驳声明。
在RAG方法中,每个声明被视为一个搜索查询,用于从互联网检索相关支持或矛盾信息。具体来说,声明被输入到Serper API中以从在线来源获取相关结果。然后对结果进行过滤以确保相关性。对于文本搜索结果,选择前条条目,优先选择带有详细片段、标题和链接的条目。对于知识图谱数据,将标题、实体类型和描述等属性处理成可用的片段。检索到的片段和上下文数据被整合并格式化为GPT-4o的连贯输入提示。请参见附录A.2中的示例提示。
使用RAG方法的评估结果如表6所示。与非RAG设置相比,正确评估(CACR)的数量显著增加了,但错误评估(WA)的数量也从上升到,增加了。同时,无评估(NA)的数量大幅下降,从降至。这些结果表明,当结合检索结果时,GPT-4o采用了一种更具攻击性的评估方法。
有趣的是,即使检索到搜索结果(S),GPT也经常提供“无评估”(NA)响应。当LLM确定检索到的证据不足以支持明确评估时就会发生这种情况。相反,即使没有检索到相关证据,GPT-4o也能做出正确评估。一种可能的解释在于给予LLM的提示结构。句子“以下是相关的搜索片段”后面跟着一个空列表可能隐含地向LLM发出信号,表明没有证据支持该声明,促使它猜测该声明为假。然而,在作为事实核查系统运行时,我们是否希望LLM以这种方式进行猜测是有争议的,因为在事实核查系统中,可信度是至关重要的。
5 讨论
在评估LLMs对LLM生成的新闻文章和声明的真实性评估能力时,我们发现LLMs在评估国家新闻中的声明时表现优于地方新闻。它们在评估事实正确的声明时也比评估事实错误的声明更准确。此外,LLMs在评估以语言状态形式表达的声明时表现优于描述动态事件的声明。这些看似不同的观察结果可以追溯到一个共同的根本因素:LLMs在处理训练数据中更可能包含的良好记录、高频信息时更有效。国家新闻声明通常比地方新闻声明有更好的记录,语言状态比快速变化的动态事件更稳定且更频繁地记录,事实正确的声明比事实错误的声明更可能出现在训练数据中。
使用RAG显著增加了正确评估的数量,但也由于无关的搜索结果(92例中有55例)、没有搜索结果(92例中有10例)或错误推理(92例中有27例)导致了更多的错误评估。每种情况的例子可以在附录A.5中找到。即使使用RAG方法,仍然有大量的无评估(NA)案例,要么是因为没有检索到搜索结果,要么是因为搜索结果嘈杂且无关。
聚焦于评估正确但推理错误(CAWR案例)的情况,我们发现11个案例中有4个源于无关的搜索结果,11个案例中有6个是由于缺少搜索结果,模型虽然得出了正确的评估但没有适当的理由。只有一个案例是由纯粹的推理失败引起的,这意味着模型尽管有相关证据却错误地应用了其逻辑。这表明,核查中的错误主要是由于薄弱或缺失的支持证据,而不是模型内的纯粹逻辑失败。
我们对CAWR案例的分析进一步揭示,当模型无法访问可靠的支持证据时,它倾向于提供推测性或不一致的推理。具体来说,面对不可验证的声明时,模型难以构建合理的推理,通常默认采用通用或误导性的解释。此外,当检索返回误导性或间接相关的文件时,模型可能将其错误的细节纳入其理由中,放大推理错误。这强调了未来对机器生成新闻内容进行事实核查的研究需要优先检索精确和可靠的证据。
表6:在温度为0时使用GPT4-o对RAG和非RAG性能的比较。“S”表示通过Google Serper API返回了搜索结果,“NS”表示未返回任何结果。 可靠证据。 RAG系统也有在缺乏证据支持的情况下进行猜测的倾向,即使猜测正确,这也是有问题的。对于检索系统无法找到证据的声明,可能需要开发人机协作的方法以确保准确性和可靠性。
我们的研究使用了手动提取和去情境化的声明。全自动评估系统需要自动提取和去情境化原子声明,目标是从LLM生成的文本中提取所有且仅可核查的声明。这对于新闻报道尤其具有挑战性,因为它们可能包含模糊和主观的语言。与FactScore(Min等人,2023)等结构化的传记数据集不同,事实声明可以轻松与维基百科对照,新闻报道包含模糊和依赖上下文的细节,需要更复杂的推理。为了使自动事实核查系统获得用户的信任和信心,这种推理过程必须是透明和可解释的。
6 结论和未来工作
我们进行了一项诊断研究,评估了使用LLMs和RAG系统对机器生成的“新闻”报告中的声明进行事实核查的优势和局限性。虽然这些系统可以验证大量声明的真实性(接近),但由于无关检索、错误推理或证据不足,相当数量的声明被错误评估或未被评估。这个问题在罕见声明上尤为突出,这类声明在新闻报道中很常见。我们的研究结果强调了需要更精确和可靠的检索系统,并在没有证据时纳入人机协作方法。
未来的工作将探索LLMs生成可验证声明的能力,这是迈向完全自动化事实核查系统的关键一步。
局限性
在这项诊断研究中,我们依赖于手动提取的声明,这本质上限制了数据集的大小,从而限制了分析的广度。尽管我们的数据集包括92篇新闻文章和1,337个单独的声明,涵盖了各种各样的事实错误,我们承认其规模是一个限制。手动提取过程耗时且劳动密集型,使得难以扩展数据集以包括更大数量的声明。尽管存在这一限制,我们精心策划了数据集,以确保它代表机器生成新闻报道中常见的声明类型。因此,我们相信数据集足够大且多样化,足以支持可靠和有意义的结论。数据将在请求时提供。
道德声明
机器生成的新闻报道如果被误认为是真实的事实内容,可能会带来重大风险。为了减轻这些风险,在发布我们的研究数据集时,我们将确保明确标注为机器生成,并明确指出其中包含虚假声明。这种标注对于防止数据集的滥用以及保持研究人员、开发者和更广泛社区的透明度至关重要。通过这样做,我们旨在促进道德研究实践,并尽量减少因传播这些数据而可能产生的任何潜在危害。
在NLP社区中,通常的做法是通过将数据集托管在GitHub等开源平台上公开发布。然而, 在这种情况下,将数据存储在私人服务器上并在研究人员请求时提供访问更为合适。这种方法有两个主要原因更为可取。首先,将数据发布到开源平台存在将其纳入未来LLM版本训练数据的风险,从而使结果不可比。其次,该数据集主要对研究人员有用,对普通公众几乎没有实际用途。
参考文献
Omar Adjali. 2024. 探索用于现实世界声明验证的检索增强生成。第七届事实提取与验证研讨会(FEVER)论文集,第113-117页,美国佛罗里达州迈阿密。计算语言学协会。
Eunsol Choi, Jennimaria Palomaki, Matthew Lamm, Tom Kwiatkowski, Dipanjan Das 和 Michael Collins. 2021. 去情境化:让句子独立存在。计算语言学协会会刊,第9卷:447-461页。
Zhenyun Deng, Michael Schlichtkrull 和 Andreas Vlachos. 2024. 文件级声明提取和去情境化以进行事实核查。第62届计算语言学年会(ACL 2024第一卷:长论文),第11943-11954页,泰国曼谷。计算语言学协会。
Zhengxiao Du, Yujie Qian, Xiao Liu, Ming Ding, Jiezhong Qiu, Zhilin Yang 和 Jie Tang. 2022. GLM: 使用自回归空白填充进行通用语言模型预训练。第60届计算语言学年会(ACL 2022第一卷:长论文),第320-335页,爱尔兰都柏林。计算语言学协会。
Ekaterina Fadeeva, Aleksandr Rubashevskii, Artem Shelmanov, Sergey Petrakov, Haonan Li, Hamdy Mubarak, Evgenii Tsymbalov, Gleb Kuzmin, Alexander Panchenko, Timothy Baldwin, Preslav Nakov 和 Maxim Panov. 2024. 通过基于令牌的不确定性量化来核查大型语言模型的输出。计算语言学协会(ACL 2024)发现,第9367-9385页,泰国曼谷及虚拟会议。计算语言学协会。
Zhibin Gou, Zhihong Shao, Yeyun Gong, Yelong Shen, Yujiu Yang, Nan Duan 和 Weizhu Chen. 2023. Critic: 大型语言模型可以通过工具交互式批评进行自我修正。ArXiv, abs/2305.11738.
Nikhil Kandpal, Haikang Deng, Adam Roberts, Eric Wallace 和 Colin Raffel. 2023. 大型语言模型难以学习长尾知识。预印本,arXiv:2211.08411.
Mohammed Abdul Khaliq, Paul Yu-Chun Chang, Mingyang Ma, Bernhard Pflugfelder 和 Filip Miletić. 2024. RAGAR,你的虚假雷达:使用多模态大型语言模型进行政治事实核查的RAG增强推理。第七届事实提取与验证研讨会(FEVER)论文集,第280-296页,美国佛罗里达州迈阿密。计算语言学协会。
Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, Mike Lewis, Wen-tau Yih, Tim Rocktäschel, Sebastian Riedel 和 Douwe Kiela. 2020. 检索增强生成用于知识密集型NLP任务。神经信息处理系统进展,第33卷,第9459-9474页。Curran Associates, Inc.
Sewon Min, Kalpesh Krishna, Xinxi Lyu, Mike Lewis, Wen-tau Yih, Pang Koh, Mohit Iyyer, Luke Zettlemoyer 和 Hannaneh Hajishirzi. 2023. FActScore: 长篇文本生成中细粒度原子精度评估。2023年经验方法自然语言处理会议论文集,第12076-12100页,新加坡。计算语言学协会。
Preslav Nakov, David Corney, Maram Hasanain, Firoj Alam, Tamer Elsayed, Alberto Barrón-Cedeño, Paolo Papotti, Shaden Shaar 和 Giovanni Da San Martino. 2021. 协助人类事实核查员的自动化事实核查。第三十届国际人工智能联合会议论文集,IJCAI-21,第4551-4558页。国际人工智能联合会议组织。调查轨道。
OpenAI, Josh Achiam, Steven Adler, Sandhini Agarwal, Lama Ahmad, Ilge Akkaya, Florencia Leoni Aleman, Diogo Almeida, Janko Altenschmidt, Sam Altman, Shyamal Anadkat, Red Avila, Igor Babuschkin, Suchir Balaji, Valerie Balcom, Paul Baltescu, Haiming Bao, Mohammad Bavarian, Jeff Belgium, Irwan Bello, Jake Berdine, Gabriel Bernadett-Shapiro, Christopher Berner, Lenny Bogdonoff, Oleg Boiko, Madelaine Boyd, Anna-Luisa Brakman, Greg Brockman, Tim Brooks, Miles Brundage, Kevin Button, Trevor Cai, Rosie Campbell, Andrew Cann, Brittany Carey, Chelsea Carlson, Rory Carmichael, Brooke Chan, Che Chang, Fotis Chantzis, Derek Chen, Sully Chen, Ruby Chen, Jason Chen, Mark Chen, Ben Chess, Chester Cho, Casey Chu, Hyung Won Chung, Dave Cummings, Jeremiah Currier, Yunxing Dai, Cory Decareaux, Thomas Degry, Noah Deutsch, Damien Deville, Arka Dhar, David Dohan, Steve Dowling, Sheila Dunning, Adrien Ecoffet, Atty Eleti, Tyna Eloundou, David Farhi, Liam Fedus, Niko Felix, Simón Posada Fishman, Juston Forte, Isabella Fulford, Leo Gao, Elie Georges, Christian Gibson, Vik Goel, Tarun Gogineni, Gabriel Goh, Rapha GontijoLopes, Jonathan Gordon, Morgan Grafstein, Scott Gray, Ryan Greene, Joshua Gross, Shixiang Shane Gu, Yufei Guo, Chris Hallacy, Jesse Han, Jeff Harris, Yuchen He, Mike Heaton, Johannes Heidecke, Chris Hesse, Alan Hickey, Wade Hickey, Peter Hoeschele, Brandon Houghton, Kenny Hsu, Shengli Hu, Xin Hu, Joost Huizinga, Shantanu Jain, Shawn Jain, Joanne Jang, Angela Jiang, Roger Jiang, Haozhun Jin, Denny Jin, Shino Jomoto, Billie Jonn, Heewoo Jun, Tomer Kaftan, Łukasz Kaiser, Ali Kamali, Ingmar Kanitscheider, Nitish Shirish Keskar, Tabarak Khan, Logan Kilpatrick, Jong Wook Kim, Christina Kim, Yongjik Kim, Jan Hendrik Kirchner, Jamie Kiros, Matt Knight, Daniel Kokotajlo, Łukasz Kondraciuk, Andrew Kondrich, Aris Konstantinidis, Kyle Kosic, Gretchen Krueger, Vishal Kuo, Michael Lampe, Ikai Lan, Teddy Lee, Jan Leike, Jade Leung, Daniel Levy, Chak Ming Li, Rachel Lim, Molly Lin, Stephanie Lin, Mateusz Litwin, Theresa Lopez, Ryan Lowe, Patricia Lue, Anna Makanju, Kim Malfacini, Sam Manning, Todor Markov, Yaniv Markovski, Bianca Martin, Katie Mayer, Andrew Mayne, Bob McGrew, Scott Mayer McKinney, Christine McLeavey, Paul McMillan, Jake McNeil, David Medina, Aalok Mehta, Jacob Menick, Luke Metz, Andrey Mishchenko, Pamela Mishkin, Vinnie Monaco, Evan Morikawa, Daniel Mossing, Tong Mu, Mira Murati, Oleg Murk, David Mély, Ashvin Nair, Reiichiro Nakano, Rajeev Nayak, Arvind Neelakantan, Richard Ngo, Hyeonwoo Noh, Long Ouyang, Cullen O’Keefe, Jakub Pachocki, Alex Paino, Joe Palermo, Ashley Pantuliano, Giambattista Parascandolo, Joel Parish, Emy Parparita, Alex Passos, Mikhail Pavlov, Andrew Peng, Adam Perelman, Filipe de Avila Belbute Peres, Michael Petrov, Henrique Ponde de Oliveira Pinto, Michael, Pokorny, Michelle Pokrass, Vitchyr H. Pong, Tolly Powell, Alethea Power, Boris Power, Elizabeth Proehl, Raul Puri, Alec Radford, Jack Rae, Aditya Ramesh, Cameron Raymond, Francis Real, Kendra Rimbach, Carl Ross, Bob Rotsted, Henri Roussez, Nick Ryder, Mario Saltarelli, Ted Sanders, Shibani Santurkar, Girish Sastry, Heather Schmidt, David Schnurr, John Schulman, Daniel Selsam, Kyla Sheppard, Toki Sherbakov, Jessica Shieh, Sarah Shoker, Pranav Shyam, Szymon Sidor, Eric Sigler, Maddie Simens, Jordan Sitkin, Katarina Slama, Ian Sohl, Benjamin Sokolowsky, Yang Song, Natalie Staudacher, Felipe Petroski Such, Natalie Summers, Ilya Sutskever, Jie Tang, Nikolas Tezak, Madeleine B. Thompson, Phil Tillet, Amin Tootoonchian, Elizabeth Tseng, Preston Tuggle, Nick Turley, Jerry Tworek, Juan Felipe Cerón Uribe, Andrea Vallone, Arun Vijayvergiya, Chelsea Voss, Carroll Wainwright, Justin Jay Wang, Alvin Wang, Ben Wang, Jonathan Ward, Jason Wei, CJ Weinmann, Akila Welihinda, Peter Welinder, Jiayi Weng, Lilian Weng, Matt Wiethoff, Dave Willner, Clemens Winter, Samuel Wolrich, Hannah Wong, Lauren Workman, Sherwin Wu, Jeff Wu, Michael Wu, Kai Xiao, Tao Xu, Sarah Yoo, Kevin Yu, Qiming Yuan, Wojciech Zaremba, Rowan Zellers, Chong Zhang, Marvin Zhang, Shengjia Zhao, Tianhao Zheng, Juntang Zhuang, William Zhuk, 和 Barret Zoph. 2024. GPT-4 技术报告。预印本,arXiv:2303.08774.
Giovanni Puccetti, Anna Rogers, Chiara Alzetta, Felice Dell’Orletta 和 Andrea Esuli. 2024. AI “新闻”内容农场容易制作且难以检测:意大利案例研究。预印本,arXiv:2406.12128.
Vatsal Raina 和 Mark Gales. 2024. 使用原子单元的企业RAG问题检索。第七届事实提取与验证研讨会(FEVER)论文集,第219-233页,美国佛罗里达州迈阿密。计算语言学协会。
Mark Rothermel, Tobias Braun, Marcus Rohrbach 和 Anna Rohrbach. 2024. Infact: 自动化事实核查的强大基线。第七届事实提取与验证研讨会(FEVER)论文集,第108-112页。
Michael Schlichtkrull, Yulong Chen, Chenxi Whitehouse, Zhenyun Deng, Mubashara Akhtar, Rami Aly, Zhijiang Guo, Christos Christodoulopoulos, Oana Cocarascu, Arpit Mittal, James Thorne 和 Andreas Vlachos. 2024. 文本声明自动化验证共享任务(AVeriTeC)。第七届事实提取与验证研讨会(FEVER)论文集,第1-26页,美国佛罗里达州迈阿密。计算语言学协会。
Herbert Ullrich, Tomáš Mlynář 和 Jan Drchal. 2024. AIC CTU 系统在 AVeriTeC 中的表现:将自动化事实核查重构为简单的RAG任务。第七届事实提取与验证研讨会(FEVER)论文集,第137-150页,美国佛罗里达州迈阿密。计算语言学协会。
Soroush Vosoughi, Deb Roy 和 Sinan Aral. 2018. 真实和虚假新闻在线传播。Science, 359(6380):1146-1151.
Yuxia Wang, Revanth Gangi Reddy, Zain Mujahid, Arnav Arora, Aleksandr Rubashevskii, Jiahui Geng, Osama Mohammed Afzal, Liangming Pan, Nadav Borenstein, Aditya Pillai 等. 2024. Factcheckbench:自动事实核查基准评估。EMNLP 2024 计算语言学协会发现论文集,第14199-14230页。
Moy Yuan 和 Andreas Vlachos. 2024. 使用语义三元组和知识图谱进行零样本事实核查。第一届知识图谱和大型语言模型研讨会(KaLLM 2024)论文集,第105-115页,泰国曼谷。计算语言学协会。
A 附录
A. 1 示例声明
- TotalEnergies 是2024年TotalEnergies BWF汤姆斯杯暨尤伯杯决赛的冠名赞助商。
- 从2024年6月30日至7月4日,缅因州海岸报告了三起鲨鱼袭击事件。
- 美国在2024财政年度报告了国内生产总值(GDP)增长10%,日期为2024年5月29日。
- 2024年TotalEnergies BWF汤姆斯杯暨尤伯杯决赛在中国重庆奥林匹克体育中心举行。
- 2024年夏季奥运会开幕式于2024年5月29日在曼谷奥林匹克体育场举行。
- 2024年澳大利亚公开赛女子决赛于2024年1月27日在玛格丽特考特竞技场举行。
- 西班牙在2024年欧洲杯半决赛中击败法国,比赛地点为多特蒙德BVB球场,日期为2024年7月9日。
- 郑钦文正在2024年澳大利亚公开赛女子决赛中争夺她的首个大满贯决赛席位,比赛地点为罗德·拉沃尔竞技场,日期为2024年1月20日。
- 麻萨诸塞州沃特敦于2024年7月15日举办的免费狂欢派对将在阿森纳公园举行。
- 新罕布什尔州卫生官员于2024年5月29日宣布发现新的COVID-19变种。
- 达拉斯小牛队在2024年NBA总决赛第四场比赛中通过加时赛在德克萨斯州达拉斯的美航中心获胜。
- 2024年NBA总决赛第七场比赛于2024年5月29日在德克萨斯州达拉斯的美航中心举行。
- 科比·布莱恩特于2024年5月29日宣布重返洛杉矶湖人队。
- 国际足联于2024年7月3日宣布,2026年世界杯将在英国伦敦举办。
- 2024年5月29日,斯蒂芬·库里从金州勇士队被交易至芝加哥公牛队。
A. 2 示例RAG提示
提示结构包括:原始声明。来自检索结果的证据片段串联。以及描述任务的前言(例如,评估声明的事实准确性)。示例提示:“以下声明需要进行准确性评估:‘声明’。” “以下是相关的搜索片段:证据文本。” “根据提供的片段,评估声明是否准确或错误。” “提供清晰且有理据的解释。”
A. 3 状态声明和事件声明评估
表7展示了LLMs在状态声明和非状态(事件)声明评估性能上的比较。LLMs在评估状态声明时表现优于非状态声明,如状态声明的WA和NA案例一般较少,而非状态声明的此类案例较多所示。
还存在显著的温度效应。对于通常涉及更标准化和系统性问题的状态声明,较高的温度可能会增强模型识别模式和做出准确评估的能力。这些声明通常基于更广泛、更一致的数据,可能对输入数据的小波动或变化不那么敏感。相反,较高的温度在响应中引入更大的变异性,这对非状态声明有不同的影响。由时间、地点或参与者等动态、特定事件细节定义的非状态声明,模型在较高温度下更难自信地验证。这种设置下的随机性导致模型产生更广泛的响应,这对创造力有益,但对精确性并不理想。事实上,这种变异性可能导致模型自相矛盾或失去一致性,特别是在需要精确细节来确认事件时。这可以解释为什么在高温设置下非状态声明的无评估情况更高,因为模型在关于具体事件的冲突或不完整信息上挣扎。
A. 4 每种评估类型的示例
- CA:
- 声明:“科比·布莱恩特于2016年退役,并于2020年在直升机事故中不幸去世。”
- 评估:“真。”
- CA/CR: - 声明:“哈里斯·卡马拉于2024年担任美国总统。”
- 评估:“截至最后一次更新,哈里斯·卡马拉不是美国总统;她是副总统。乔·拜登是美国总统。但是,请检查最新和可靠的消息来源以确认当前的职位持有者,因为情况可能会发生变化。”
- CA/WR:
表7:状态与非状态声明的比较。
- 声明:“大阪在2024年澳大利亚公开赛女子决赛后的赛后采访中说,‘这是我打过的最艰难的比赛之一。伊加是一位令人难以置信的选手,她今天把我逼到了极限。再次在这里赢得澳大利亚公开赛真是梦想成真,我非常感谢球迷们的支持。’”
- 评估:“所提供的信息似乎不正确。澳大利亚公开赛通常在一月份举行,所以如果今天是2024年7月29日,大阪不会在她的采访中提到最近的一次澳大利亚公开赛胜利。”
- WA: - 声明:“2021年10月25日在波兰华沙举行的第十八届国际肖邦钢琴比赛吸引了来自世界各地的年轻钢琴家齐聚波兰首都,角逐备受瞩目的头奖。”
- 评估:“你提供的信息是准确的。第十八届国际肖邦钢琴比赛确实于2021年10月25日在波兰华沙举行,并吸引了来自世界各地的年轻钢琴家参加,角逐备受瞩目的头奖。”
NA: - 声明:“麻萨诸塞州沃特敦于2024年7月15日举办的名为‘Watertown Rave: Lights & Beats’的狂欢派对预计将吸引来自新英格兰各地的电子舞曲(EDM)爱好者。”
- 评估:“作为AI,我无法提供实时或未来的活动信息。要核实有关‘Watertown Rave: Lights & Beats’之类的新闻准确性,请查阅当地活动列表、新闻来源或官方活动组织者。始终最好从可靠来源获取最新更新。”
A. 5 RAG设置中的错误案例
- 无搜索结果: - 声明:“麻萨诸塞州沃特敦镇经理迈克尔·德里斯科尔于2024年6月表示‘这对我们的城镇来说是一项重要的发展,我们重视居民的投入。公共会议将是听取大学意见并提供反馈的机会,以确保该项目同时造福布兰迪斯大学和沃特敦社区。’”
- 评估:“该声明是假的。实际上,这句话是由沃特敦镇议会主席马克·西德里斯发表的,而不是镇经理迈克尔·德里斯科尔。”
- 声明:“拉塞尔·威斯布鲁克在2024年5月29日的社交媒体上写道‘恭喜你拥有一个惊人的职业生涯,PG!为你所取得的一切感到骄傲,并期待接下来的发展。’”
- 评估:“该声明是假的。提供的片段表明,拉塞尔·威斯布鲁克的社交媒体帖子祝贺‘PG’实际上是针对保罗·乔治,他宣布从职业篮球退役。帖子的日期也与保罗·乔治退役公告的时间一致,该公告于2024年5月29日报道。因此,威斯布鲁克的信息确实是关于保罗·乔治的职业生涯和未来的。”
- 无关搜索结果: - 声明:“2021年10月25日在华沙举行的第十八届国际肖邦钢琴比赛,布鲁斯·刘在最后一轮中的表现演奏了令人惊叹的肖邦《E小调第一钢琴协奏曲》,作品11号。”
- 评估:“该声明是假的。搜索片段表明,布鲁斯·刘在第十八届国际肖邦钢琴比赛的最后一轮中演奏的是肖邦《F小调第二钢琴协奏曲》,作品21号,而不是声明中所述的《E小调第一钢琴协奏曲》,作品11号。片段中特别提到‘Bruce Liu - F.肖邦钢琴协奏曲No. 2 in F小调, Op. 21’在比赛中确认了这一点。”
- 声明:“第一次鲨鱼袭击发生在2024年6月30日星期日的老果园海滩,一名35岁的男子在游泳时腿部严重受伤。”
- 评估:“声称第一次鲨鱼袭击发生在2024年6月30日星期日的老果园海滩是错误的。搜索片段表明,在这个日期之前发生了一次致命的鲨鱼袭击,涉及朱莉·迪米佩里奥·霍洛瓦奇,她在卡斯科湾附近的贝利岛游泳时因鲨鱼袭击死亡。这次事件被认为是缅因州首次记录的致命鲨鱼袭击。因此,关于2024年发生的第一次鲨鱼袭击的说法不准确,因为在该日期之前至少有一次记录的鲨鱼袭击。
- 推理失败: - 声明:“阿丽娜·萨巴伦卡是2024年澳大利亚公开赛女子单打的二号种子。”
- 评估:“声称阿丽娜·萨巴伦卡是2024年澳大利亚公开赛女子单打的二号种子是错误的。搜索片段表明,阿丽娜·萨巴伦卡在比赛中排名第二,正如片段中提到的那样:‘在周六的女子决赛中,排名第二的阿丽娜·萨巴伦卡直落两盘击败郑钦文,赢得她的第二个大满贯冠军。’ 在大型网球锦标赛中,排名第二和二号种子通常是同义词,因为种子排位通常基于比赛前的世界排名。因此,该声明是准确的。”
- ^https://serper.dev/ FEVER数据集由通过维基百科验证的单个陈述组成。EX-FEVER数据集同样基于维基百科,但需要多跳推理来进行事实核查以增强可解释性。AVeriTeC数据集包含可以与网络资源对照的真实世界陈述。所有这些数据集都是由假设有一个可以用来验证这些陈述的知识来源的单个陈述组成的集合。