Jekaterina Novikova, Carol Anderson, Borhane Blili-Hamelin & Subhabrata Majumdar
AI Risk and Vulnerability Alliance
{jekaterina, carol, borhane, subho}@avidml.org
摘要
有效语言使用的关键在于一致性——在相似的语境中表达相似的含义并避免矛盾。尽管人类交流自然体现了这一原则,但最先进的语言模型在不同场景下难以保持可靠的一致性。本文探讨了AI语言系统中一致性研究的现状,涵盖了形式一致性(包括逻辑规则遵循)和非形式一致性(如道德和事实连贯性)。我们分析了目前用于衡量一致性的方法,识别出定义标准化、多语言评估以及提高一致性的方法中的关键研究空白。我们的研究结果表明,迫切需要强大的基准来衡量语言模型在特定领域任务中的应用一致性,同时保留其实用性和适应性。
1 引言
一致性——广义上定义为在相似场景中以相似方式使用语言或在使用语言时避免矛盾——是语言使用中最重要的一种泛化形式。这种维持一致输出的能力对于构建用户可信赖和依赖的可靠AI系统至关重要。一致性不仅是用户与语言技术互动时的自然期望,也是在高风险领域部署这些模型的先决条件(Elazar等人,2021;Jang等人,2022;Kim等人,2025)。然而,最先进的大规模语言模型(LLMs)在这方面表现不佳,并表现出多种不一致行为(Elazar等人,2021;Raj等人,2025)。尽管已有多个研究记录了此类例子,但尚无标准方法来评估模型的一致性。因此,存在高估最先进模型性能的风险,同时也低估了这些模型引发的风险和潜在危害。
一些早期尝试分析模型在一致性方面的行为,理解不一致的根本原因,并发现缓解不一致的方法或利用不一致输出改进模型的方式。然而,语言模型一致性研究面临多重挑战,从术语和评估方法缺乏共识,到数据和模型的限制。本文综述了当前关于语言模型一致性的研究,突出最紧迫的挑战,并为未来的研究方向提供建议。为了更具体,我们将注意力限制在纯文本语言模型上,这是现有大部分一致性研究的基础。详见附录A关于多模态一致性的研究参考。
2 ML中一致性研究的回顾
语言模型中的一致性与AI研究中的几个关键领域相关:幻觉(生成可能与已知事实矛盾的虚构信息)、事实性(与现实世界知识的一致性)、虚假信息(误导用户的错误声明)和推理(陈述之间的逻辑连贯性)。因此,一致性评估构成了基础模型评估框架的重要组成部分。本节回顾了2019年至2025年期间关于语言模型一致性的文献,重点关注在主要AI会议上的同行评审出版物和明确通过评估、增强技术或理论分析解决一致性的有影响力的预印本。
2.1 术语和一致性类型
用来描述语言模型一致性的术语常常令人困惑,因为没有单一的、普遍认可的一致性定义。作者要么提出与他们研究重点最匹配的概念定义,要么使用过于宽泛的定义,有时甚至完全省略对术语的定义。因此,现有的研究呈现了多个狭隘聚焦的一致性定义,这些定义往往涵盖模型行为的不同方面,有时甚至相互矛盾。
尽管在之前的语言模型一致性定义上存在分歧,但所有研究都以某种方式与这些模型的行为相关。鉴于对模型行为的关注及其对潜在模型应用的影响,在本文中,我们将更广泛的一致性概念限定为行为一致性。行为一致性在人类个性心理学领域得到了深入分析,它指的是在各种情况下,有时甚至是多年间,行为模式遵循相同原则的现象(Funder & Colvin,1991)。在心理学中,行为一致性与行为的可预测性紧密相连,这对语言模型的应用同样重要。基于文献中对行为一致性的处理方式,在本文中,我们将不同类型的一致性进一步分为两大类:逻辑/正式一致性和非逻辑/非正式一致性。
2.1.1 逻辑/正式一致性
Jang等人(2022)首次提出了与大型语言模型相关的逻辑一致性概念,即将模型在不产生逻辑矛盾的情况下做出决策的能力。通过应用形式逻辑的规则和原则,可以系统地评估模型的行为,从而使评估过程标准化且易于遵循。基于这些原则,Jang等人(2022)将一致性分为否定型、对称型、传递型和加法型四种类型。否定一致性遵循逻辑否定性质( ( p ) (p) (p) 为真 ( ⇔ ¬ p ) (\Leftrightarrow \neg p) (⇔¬p) 为假),即对于具有相反含义的文本,LM 的预测应相反。对称一致性遵循规则 ( f ( x , y ) = f ( y , x ) ) (f(x, y)=f(y, x)) (f(x,y)=f(y,x)),意味着 LM 对输入文本交换应具有不变的预测。传递一致性可以衡量演绎推理能力,并遵循传递推论性质,表示为 ( X → Y ∧ Y → Z ) (X \rightarrow Y \wedge Y \rightarrow Z) (X→Y∧Y→Z) 则 ( X → Z ) (X \rightarrow Z) (X→Z)。这种类型的一致性在自然语言推理任务中由 Li 等人(2019)以及问答任务中由 Asai 和 Hajishirzi(2020b);Mitchell 等人(2022)进行了分析。
语义一致性是 Jang 等人(2022)定义的另一部分子概念,是现有一致性研究中最常使用的概念之一。语义一致性的思想来源于语义等价性质,表示为若 ( X ) (X) (X) 和 ( Y ) (Y) (Y) 含义相同,则 ( f ( X ) = f ( Y ) ) (f(X)=f(Y)) (f(X)=f(Y))。Elazar 等人(2021)将其探索为模型在语义等价情境中做出一致决策的能力,随后 Ohmer 等人(2024);Raj 等人(2022;2023)也采用了类似的理解。
2.1.2 非逻辑/非正式一致性
非逻辑或非正式类型的一致性涵盖了所有不符合形式逻辑规则的定义。例如,Bonagiri 等人(2024)强调了道德一致性的重要性,将其定义为在不同类型的场景中保持非矛盾道德价值的能力,这是 LLM 对齐的一部分(Arvanitis 和 Kalliris,2020;Marcus,1980)。他们的方法包括生成语义等价的情景,并采用一致性检查,以查看目标 LLM 在响应这些情景时是否获得相同的语义图熵(SaGE)分数。为了评估 SaGE 的可靠性,他们使用人工评估。Jain 等人(2024)研究了 LLM 中的规范不一致性,将其定义为 LLM 在类似场景中应用不同规范的情况。他们特别关注模型在高风险领域的应用。
信息和/或事实一致性是 Jang 等人(2022)定义的另一部分子概念,也是现有研究中常用的一个术语。Manakul 等人(2023)在开发黑盒模型响应的事实核查方法时使用了该术语,但未进一步解释或定义。事实一致性通常在自动摘要上下文中使用(Wang 等人,2020)。事实不一致性通常被称为幻觉和/或忠实性,即模型生成的新信息与源文档相矛盾(例如 Tam 等人,2023;Maynez 等人,2020)。事实一致性的定义通常未明确指定,而是被替换为人机标注,例如 Tam 等人(2023)。
一些较新的工作澄清了一致性的概念。Parcalabescu 和 Frank(2024)最近的一项关于自然语言解释的研究对比了忠实性和自一致性。自一致性考察的是相似输入是否产生一致的解释,本质上是在测量输入变化中的解释稳定性。而忠实性则评估某个模型生成答案背后的解释是否准确反映了模型得出该答案的推理过程。虽然两者相关,但涉及不同的评估方法。自一致性需要测试多个输入变化(这可能在数据集之间无法很好地推广),并且不一定涉及对解释准确性的检查。另一方面,忠实性专注于单个解释的准确性,而不受这些约束。
2.2 分析的下游任务
其中,大多数关于语言模型一致性的研究调查了成熟的NLP任务。最常见的分析任务包括问答(QA)(Asai 和 Hajishirzi,2020a;Berglund 等人,2024;Li 等人,2023;Liu 等人,2024;Mündler 等人,2024;Raj 等人,2022;2023;Wang 等人,2020)、摘要生成(Cui 等人,2024;Tam 等人,2023;Wang 等人,2020;West 等人,2024)、自然语言推理(NLI)(Camburu 等人,2020;Dziri 等人,2019;Jang 和 Lukasiewicz,2023;Jang 等人,2022;West 等人,2024)和推理(Chen 等人,2024;Liu 等人,2024;Wang 等人,2023;Zhang 等人,2024b)。大约三分之一的现有研究不依赖于标准的NLP任务。这些研究通常使用自定义任务,例如生成来自维基百科的句子延续(Mündler 等人,2024)。少数研究采用针对特定用例量身定制的方法,例如根据收益电话会议和新闻文章等文本信息测量股票价格预测的准确性(Yang 等人,2023)。
2.3 测试数据的数量和可用性
不同研究中的测试样本数量差异很大,从几百个到数万个样本不等。一种创建一致性评估测试数据集的标准方法是使用一个或多个现有的标准基准,并根据一组规则或模板对其进行修改,以便进行一致性评估(Fierro 和 Søgaard,2022;Jang 等人,2022)。另一种方法是通过人工或LLM生成注释来增强现有基准(Liu 等人,2023)。在评估语义一致性时,常用的方法是使用自动改写方法(Bonagiri 等人,2024)和/或人工注释者(Elazar 等人,2021)创建现有数据集的同义句。大多数生成的测试数据集公开共享,以便实验可重复,但在某些情况下,作者仅依赖于数据集创建过程的描述,而不提供实际数据集的访问权限。
2.4 评估的模型
在我们的文献综述中,超过三分之二的语言模型一致性研究使用了生成式、基于变压器的LM,其架构为仅解码器或编码器-解码器结构,如GPT和OPT系列模型、BART和T5(Berglund 等人,2024;Chen 等人,2024;Cheng 等人,2024;Cui 等人,2024;Jang 和 Lukasiewicz,2023;Jang 等人,2022;Li 等人,2023;Liu 等人,2024;Manakul 等人,2023;Mündler 等人,2024;Nie 等人,2021;Qin 等人,2021;Raj 等人,2022;2023;Tam 等人,2023;Wang 等人,2020;2023;West 等人,2024;Zhang 等人,2024a;b)。这些研究的模型大小范围从几十亿参数到数百亿参数甚至更多。许多研究还考虑了其他类型的模型。在我们审查的论文中,略超过一半的论文测试了专有模型,如GPT-4(Berglund 等人,2024;Chen 等人,2024;Cheng 等人,2024;Cui 等人,2024;Jang 和 Lukasiewicz,2023;Li 等人,2023;Liu 等人,2024;Mündler 等人,2024;West 等人,2024;Zhang 等人,2024a;b),这些模型的确切大小尚未公开披露,但在某些情况下据说超过了万亿参数。约四分之一的研究(Asai 和 Hajishirzi,2020a;Elazar 等人,2021;Jang 等人,2022;Nie 等人,2021;Qin 等人,2021;Yang 等人,2023)集中在基于BERT的模型,如BERT、RoBERTa和ALBERT上。
2.5 评估指标
用于衡量不同类型一致性的指标通常依赖于成对相似性度量。它们计算给定相似输入和/或上下文的输出对的内在基本度量,如 BERTScore、ROUGE、蕴涵或矛盾,并对多个这样的对进行汇总。在早期研究中,基本度量基于标记匹配相似性(Elazar 等人,2021)。后来的论文转向了语义相似性概念,这些概念对句法变化具有鲁棒性,可以在改变措辞或句子结构的同时保持意义相同或相似(Manakul 等人,2023;Rabinovich 等人,2023;Raj 等人,2022;2023)。在一对集合上的度量聚合通常通过简单平均完成,例外情况是 Mündler 等人(2024),他们使用矛盾分数的顺序聚合来检测事实一致性,以及(Kuhn 等人,2023;Raj 等人,2023)使用整个输出集合上的语义熵。
2.6 其他重要方面
尽管近年来受到关注,一致性的一些重要方面仍研究不足。我们特别指出两个方向。首先,近期一致性研究过度关注解码时间生成的一致性。在此过程中,忽略了基于BERT和RoBERTa等编码器模型,以及输入一致性如何影响下游标准NLP任务(如情感预测)的表现。另一个目前研究不足的方向是对一致性的对抗攻击。尽管在对抗鲁棒性(例如AdvGLUE基准测试(Wang 等人,2022))和越狱方面有大量的研究,但很少有研究探讨如何通过不易察觉或微妙的提示操作导致LLM响应不一致(Lin 等人,2024a),我们尚未完全了解恶意扰动结合略有不同的输入文本会如何降低下游输出的质量。
模型权重和训练数据的可用性——允许更强的透明度和可重复性——有助于调查LLM中不一致的根本原因。正如Lin等人(2024b)所示,分析模型的内部状态可以提高模型的透明度,并为缓解模型幻觉和不一致奠定基础。不仅闭源模型,未发布的源代码和未发布的数据集也使得几乎不可能重现某些现有出版物,使得验证出版物中所述的主张和发现变得非常困难(Semmelrock 等人,2023)。
3 讨论与未来研究建议
3.1 一致性研究的标准化
在第2节中,我们回顾了现有的一致性研究,展示了某些类型的一致性,如传递或对称一致性以及非英语语言,在当前文献中代表性不足,而其他方面,如仅限英语的文本到文本模型的语义一致性,相对研究得较为充分。我们还展示了在一致性的通用定义和评估指标的使用上几乎没有共识。由于缺乏标准化的评估流程和基准,大多数现有工作都是在个人创建的数据集上进行的,这些数据集并不总是公开共享的。这种缺乏标准化评估方法的情况使得比较个别一致性研究的结果、复制先前的工作以及因此理解模型开发在一致性评估方面的进展变得困难。
3.2 多语言一致性
与其他NLP研究方面类似,目前绝大多数关于基础模型一致性的研究都是基于英语数据进行的,这极大地限制了我们对模型一致性的理解。为了拓宽这种理解,需要对单语言非英语语言的一致性以及跨语言一致性行为进行更多研究。
3.2.1 非英语语言中的一致性
英语和其他语言的可用训练数据量之间存在显著差距(Üstün 等人,2024)。尽管当今世界上有7000多种语言被使用,但用于训练LLM的流行数据集中有惊人的73%主要或完全为英语(Longpre 等人,2023)。这种在数据集构建中的严重采样偏差导致了即使在研究充分的任务中,模型在不同语言上的表现也存在差异(Lai 等人,2023)。
此外,语言之间的固有差异可能显著影响训练于其上的语言模型的一致性。词序或屈折形态等结构特征在不同语言中的稳定性可能会有所不同(Dediu & Cysouw,2013)。这些差异使得即使在所有语言在训练数据中平等表示的情况下,训练出能够产生一致输出的模型也更加困难。需要更多的研究来理解语言差异和多语言训练数据的局限性对非英语语言中一致性的影响。
3.2.2 跨语言一致性
跨语言一致性是指当用不同语言提出相同查询时,模型是否产生兼容或等效的输出。最近的研究显示了该领域的重大挑战。Shen 等人(2024)发现LLM在不同语言中表现出不一致的安全行为,安全防护措施更容易在非英语语言中被规避。类似地,Xing 等人(2024)观察到LLM在用不同语言查询相同知识时产生不一致的事实信息,表明语言间知识表示存在差距。Qi 等人(2023)检查了跨语言的事实一致性并发现了差异,与英语差异较大的语言不太可能通过模型编辑反映合成插入的事实关联。Jin 等人(2023)专门评估了医疗问题中的跨语言不一致性,发现在不同语言中医疗建议存在差异。Zhou 和 Zhang(2024)探讨了双语模型中政治偏见的不一致性,揭示了模型可能根据输入语言表达不同的政治立场。
这些发现共同突显了当前LLM能力中的关键缺口:在不同语言中维持一致的事实信息、安全防护措施和推理能力。跨语言一致性代表了未来研究的重要方向,尤其是在全球范围内部署LLM跨越语言边界时尤为重要。
3.3 自动评估与人工评估
大多数先前的研究单独使用自动指标来评估语言模型的一致性水平。尽管自动评估对于确保客观性和快速评估大量数据是必要的,但人工评估对于建立可接受的基线非常重要。当在高度敏感或基于文化的主观应用(例如社会适当性)中评估模型一致性时,或者当自动测量的一致性水平足够高时,这一点尤其重要。
一致性评估提出了几个独特的挑战。自动指标往往难以捕捉一致性类型的完整谱系(事实、逻辑、语义),而人工评估则受到主观性和认知偏差的影响。一致性的上下文性质要求在多个响应、不同表述和各种上下文中进行评估,使得全面评估在计算上昂贵且在物流上具有挑战性。进一步复杂化的是,一致性评估与其他维度(如事实性、帮助性和安全性)相互作用——模型可能是内部一致但事实不正确,或者它可能牺牲一致性以保持安全性。
有趣的是,目前还没有公开可用的基准来衡量语言模型在多样化任务中所有不同方面的一致性。未来的工作应着重于开发高质量的基准,以应对上述挑战。
3.4 一致性的危害与益处
语言模型的不一致输出可能导致用户接收到冲突或错误的信息,这在事实准确性至关重要的场景中尤为成问题(Tam 等人,2023;Wang 等人,2024)——例如在医疗、法律或金融背景下,特别是当此类信息用于决策时。在关键系统中,如自动驾驶车辆或医疗诊断支持,不一致的响应可能导致关键的安全风险。在不太关键的应用中,不一致的响应会导致用户体验不佳,引起挫败感并降低系统的整体实用性(Lazar 等人,2023;van Bergen 等人,2024;Zhang 等人,2024a)。
除了上述问题外,不一致的响应可能反映并放大训练数据中潜在的社会偏见和刻板印象,导致某些用户群体可能出现歧视性结果,放大不公平的模型使用,并造成代表性伤害,包括贬低社会群体(Blodgett 等人,2020)。
尽管不一致性在实际应用中对语言模型的用户带来一定风险和潜在危害,但也需要理解其在特定环境和情况下的潜在价值和优势。首先,一定程度的不一致性可以导致更多样化和创造性的输出,这在需要原创性或头脑风暴的任务中是有价值的。因此,不一致性可能反映模型适应不同上下文或用户需求的能力,从而提供更具个性化的响应。
其次,模型的不一致输出促使用户更批判地参与内容并寻求额外验证。这在教育应用中是有益的,只要可能的模型不一致性水平已知且受到精心控制。
最后,不一致性可以帮助识别模型需要改进的领域,推动进一步的AI研究和开发。
3.5 提高一致性的方法
尽管一致性很重要,但出现的实际能增加语言模型一致性的方法却出奇地少。当前提出的方案分为两类。第一类使用微调技术来改善当提供相同或相似输出时语言模型多次生成之间的一致性。为此,(Elazar 等人,2021) 使用了自定义损失函数,Raj 等人(2025)使用了来自更一致教师模型的知识蒸馏,Raj 等人(2025);Zhao 等人(2024)利用了合成的一致输入-输出数据集。第二类方法试图改善自一致性,即模型推理过程与其最终答案之间的一致性 (Deng 等人,2023;Wang 等人,2023;Wei 等人,2022)。
尽管这些方法显示出希望,但它们主要针对的是不一致的症状而非根本原因。亟需研究调查语言模型表征空间中一致性的结构基础、一致性导向的预训练目标以及旨在在多样上下文中保持一致性的架构。这些基础方法有可能消除一致性和其他有价值的属性(如创造力或适应性)之间的权衡,而这正是上述方法通常表现出的。
4 结论与行动呼吁
在本文中,我们回顾了语言模型中的一致性,强调了该关键研究领域中的挑战、当前方法和未来方向。我们展示了尽管取得了显著进展,但该领域缺乏标准化的定义、评估指标、基准和缓解技术。这种缺乏标准化阻碍了进展,并使得研究之间的结果难以比较。
我们特别呼吁研究界应对以下几个关键挑战:(1) 开发一致性类型的标准定义和分类;(2) 创建全面的多语言和跨语言一致性评估基准;(3) 建立结合自动指标与人工评估的稳健评估协议;(4) 研究一致性与其他重要属性(如事实性、安全性和帮助性)之间的关系;(5) 开发高效方法以增强一致性而不牺牲其他有益的模型能力。
为此,我们强调跨学科合作的必要性,将语言学、心理学、哲学和伦理学的观点结合起来,更好地理解人类和机器语言使用中一致性的多方面性质。通过集体应对这些挑战,我们可以朝着在不同背景和应用中表现出更可靠、可信赖和与人类对齐行为的语言模型迈进。
参考文献
Akari Asai 和 Hannaneh Hajishirzi。逻辑引导的数据增强和正则化以实现一致的问题回答。在 Dan Jurafsky、Joyce Chai、Natalie Schluter 和 Joel Tetreault(编辑),《计算语言学协会第58届年会论文集》,第5642-5650页,在线,2020年7月。计算语言学协会。doi: 10.18653/v1/2020.acl-main.499。URL https://aclanthology.org/2020.acl-main.499。
Akari Asai 和 Hannaneh Hajishirzi。逻辑引导的数据增强和正则化以实现一致的问题回答。arXiv预印本 arXiv:2004.10157,2020b。
Lukas Berglund、Meg Tong、Maximilian Kaufmann、Mikita Balesni、Asa Cooper Stickland、Tomasz Korbak 和 Owain Evans。反转诅咒:经过"A 是 B"训练的LLM无法学习"B 是 A"。在《第十二届国际学习表示会议》,2024。URL https://openreview.net/forum?id=GPKTIktA0k。
Su Lin Blodgett、Solon Barocas、Hal Daumé III 和 Hanna Wallach。语言(技术)就是权力:对NLP中“偏见”的批判性综述。在《计算语言学协会第58届年会论文集》,第5454-5476页,2020。
Vamshi Krishna Bonagiri、Sreeram Vennam、Priyanshul Govil、Ponnurangam Kumaraguru 和 Manas Gaur。SaGE:评估大型语言模型中的道德一致性。在 Nicoletta Calzolari、Min-Yen Kan、Veronique Hoste、Alessandro Lenci、Sakriani Sakti 和 Nianwen Xue(编辑),《2024联合国际计算语言学、语言资源与评估会议论文集》(LREC-COLING 2024),第14272-14284页,意大利都灵,2024年5月。ELRA 和 ICCL。URL https://aclanthology.org/2024.lrec-main.1243。
Oana-Maria Camburu、Brendan Shillingford、Pasquale Minervini、Thomas Lukasiewicz 和 Phil Blunsom。坚定你的信念!对抗性生成不一致的自然语言解释。在 Dan Jurafsky、Joyce Chai、Natalie Schluter 和 Joel Tetreault(编辑),《计算语言学协会第58届年会论文集》,第4157-4165页,在线,2020年7月。计算语言学协会。doi: 10.18653/v1/2020.acl-main.382。URL https://aclanthology.org/2020.acl-main.382。
Angelica Chen、Jason Phang、Alicia Parrish、Vishakh Padmakumar、Chen Zhao、Samuel R. Bowman 和 Kyunghyun Cho。LLMs多步推理中的两种自一致性失效。《机器学习研究交易》,2024。ISSN 2835-8856。URL https://openreview.net/forum?id=5nBqY1y96B。
Furui Cheng、Vilém Zouhar、Simran Arora、Mrinmaya Sachan、Hendrik Strobelt 和 Mennatallah El-Assady。Relic:使用自一致性调查大型语言模型响应。在《CHI计算系统中的人为因素会议论文集》,CHI '24。计算机械协会,2024。doi: 10.1145/3613904.3641904。
Wendi Cui、Jiaxin Zhang、Zhuohang Li、Damien Lopez、Kamalika Das、Bradley Malin 和 Sricharan Kumar。DCR-Consistency:用于评估和改进大型语言模型一致性的分治推理方法,2024。URL https://arxiv.org/abs/2401.02132。
Dan Dediu 和 Michael Cysouw。一些语言的结构方面比其他方面更稳定:七种方法的比较。PloS one,8(1):e55009,2013。
Yuntian Deng、Kiran Prasad、Roland Fernandez、Paul Smolensky、Vishrav Chaudhary 和 Stuart Shieber。通过知识蒸馏实现隐式思维链推理,2023。URL https://arxiv.org/abs/2311.01460。
Nouha Dziri、Ehsan Kamalloo、Kory Mathewson 和 Osmar Zaiane。使用蕴涵评估对话系统中的连贯性。在 Jill Burstein、Christy Doran 和 Thamar Solorio(编辑),《北美计算语言学协会2019年会议论文集:人类语言技术卷1(长篇和短篇论文)》,第3806-3812页,明尼苏达州明尼阿波利斯,2019年6月。计算语言学协会。doi: 10.18653/v1/N19-1381。URL https://aclanthology.org/N19-1381。
Yanai Elazar、Nora Kassner、Shauli Ravfogel、Abhilasha Ravichander、Eduard Hovy、Hinrich Schütze 和 Yoav Goldberg。测量和改进预训练语言模型的一致性。《计算语言学协会事务》,9:1012-1031,2021。doi: 10.1162/tacl_a_00410。URL https://aclanthology.org/2021.tacl-1.60。
Constanza Fierro 和 Anders Søgaard。多语言预训练语言模型的事实一致性。在《计算语言学协会发现:ACL 2022》,第3046-3052页,爱尔兰都柏林,2022年5月。计算语言学协会。URL https://aclanthology.org/2022.findings-acl.240。
David C Funder 和 C Randall Colvin。行为一致性探索:人物、情境和行为的属性。《人格与社会心理学杂志》,60(5):773,1991。
Myeongjun Jang 和 Thomas Lukasiewicz。ChatGPT的一致性分析。在 Houda Bouamor、Juan Pino 和 Kalika Bali(编辑),《2023年经验方法在自然语言处理会议论文集》,第15970-15985页,新加坡,2023年12月。计算语言学协会。doi: 10.18653/v1/2023.emnlp-main.991。URL https://aclanthology.org/2023.emnlp-main.991。
Myeongjun Jang、Deuk Sin Kwon 和 Thomas Lukasiewicz。BECel:语言模型一致性评估基准。在《第29届国际计算语言学会议论文集》,第3680-3696页,2022。
Yiqiao Jin、Mohit Chandra、Gaurav Verma、Yibo Hu、Munmun De Choudhury 和 Srijan Kumar。最好用英语提问:跨语言评估大型语言模型在医疗查询中的表现。《ACM网络会议论文集》2024,2023。URL https://api.semanticscholar.org/CorpusID:264405758。
Sunnie S. Y. Kim、Jennifer Wortman Vaughan、Q. Vera Liao、Tania Lombrozo 和 Olga Russakovsky。促进对大型语言模型的适当依赖:解释、来源和不一致的作用。在《CHI计算系统中的人为因素会议论文集》,第1-26页,日本横滨,2025。ACM。ISBN 979-8-4007-1394-1/25/04。doi: 10.1145 / 3706598.3714020 10.1145 / 3706598.3714020 10.1145/3706598.3714020。
Lorenz Kuhn、Yarin Gal 和 Sebastian Farquhar。语义不确定性:自然语言生成中不确定性估计的语言不变性,2023。URL https://arxiv.org/abs/2302.09664。
Viet Lai、Nghia Ngo、Amir Pouran Ben Veyseh、Hieu Man、Franck Dernoncourt、Trung Bui 和 Thien Nguyen。超越英语的ChatGPT:迈向多语言学习中大型语言模型的全面评估。在《计算语言学协会发现:EMNLP 2023》,第13171-13189页,2023。
Jonathan Lazar、Jinjuan Heidi Feng、Abigail Lazar 和 Brian Wentz。挫折:仍然是一种常见的用户体验。《ACM计算机-人类交互事务》,30(3):1-22,2023。doi: 10.1145 / 3582432 10.1145 / 3582432 10.1145/3582432。
Tao Li、Vivek Gupta、Maitrey Mehta 和 Vivek Srikumar。逻辑驱动的神经模型一致性框架。arXiv预印本 arXiv:1909.00126,2019。
Xiang Lisa Li、Vaishnavi Shrivastava、Siyan Li、Tatsunori Hashimoto 和 Percy Liang。基准测试和改进语言模型生成器-验证器一致性。ArXiv,abs/2310.01846,2023。URL https://api.semanticscholar.org/CorpusID:263609159。
Weiran Lin、Anna Gerchanovsky、Omer Akgul、Lujo Bauer、Matt Fredrikson 和 Zifan Wang。LLM Whisperer:一种隐蔽攻击以偏置LLM响应。arXiv预印本 arXiv:2406.04755,2024a。
Zichao Lin、Shuyan Guan、Wending Zhang、Huiyan Zhang、Yugang Li 和 Huaping Zhang。迈向值得信赖的LLMs:大型语言模型去偏和去幻觉的综述。《人工智能评论》,57(9):1-50,2024b。
Ziyi Liu、Isabelle Lee、Yongkang Du、Soumya Sanyal 和 Jieyu Zhao。SCORE:自我矛盾推理评估框架。arXiv预印本 arXiv:2311.09603,2023。
Ziyi Liu、Isabelle Lee、Yongkang Du、Soumya Sanyal 和 Jieyu Zhao。自我矛盾推理评估与检测,2024。URL https://arxiv.org/abs/2311.09603。
Shayne Longpre、Robert Mahari、Anthony Chen、Naana Obeng-Marnu、Damien Sileo、William Brannon、Niklas Muennighoff、Nathan Khazam、Jad Kabbara、Kartik Perisetla 等人。数据出处计划:AI中的大规模数据集许可与归属审计。arXiv预印本 arXiv:2310.16787,2023。
Potsawee Manakul、Adian Liusie 和 Mark J. F. Gales。SelfCheckGPT:零资源黑箱生成型大语言模型幻觉检测,2023。URL https://arxiv.org/abs/2303.08896。
Eric Mitchell、Joseph J Noh、Siyan Li、William S Armstrong、Ananth Agarwal、Patrick Liu、Chelsea Finn 和 Christopher D Manning。通过自然语言推理增强预训练语言模型的自一致性和性能。arXiv预印本 arXiv:2211.11875,2022。
Niels Mündler、Jingxuan He、Slobodan Jenko 和 Martin Vechev。大型语言模型的自我矛盾幻觉:评估、检测和缓解,2024。URL https://arxiv.org/abs/2305.15852。
Yixin Nie、Mary Williamson、Mohit Bansal、Douwe Kiela 和 Jason Weston。我喜欢鱼,尤其是海豚:解决对话建模中的矛盾。在Chengqing Zong、Fei Xia、Wenjie Li 和 Roberto Navigli(编辑),《计算语言学协会第59届年会和第11届国际自然语言处理联合会议论文集(长篇论文卷)》,第1699-1713页,在线,2021年8月。计算语言学协会。doi: 10.18653/v1/2021.acl-long.134。URL https://aclanthology.org/2021.acl-long.134。
Xenia Ohmer、Elia Bruni 和 Dieuwke Hupkes。从形式到意义:使用多义一致性探测语言模型的语义深度。《计算语言学》,第1-51页,2024。
Letitia Parcalabescu 和 Anette Frank。关于测量自然语言解释的忠实性或自一致性。在 Lun-Wei Ku、Andre Martins 和 Vivek Srikumar(编辑),《计算语言学协会第62届年会论文集(长篇论文卷)》,第6048-6089页,泰国曼谷,2024年8月。计算语言学协会。URL https://aclanthology.org/2024.acl-long.329。
Jirui Qi、Raquel Fernández 和 Arianna Bisazza。多语言语言模型中事实知识的跨语言一致性。在《经验方法在自然语言处理会议论文集》,2023。URL https://api.semanticscholar.org/CorpusID:264145744。
Libo Qin、Tianbao Xie、Shijue Huang、Qiguang Chen、Xiao Xu 和 Wanxiang Che。不要与任何事物产生矛盾!Cl-ToD:面向任务导向对话系统的一致性基准。在 Marie-Francine Moens、Xuanjing Huang、Lucia Specia 和 Scott Wen-tau Yih(编辑),《2021年经验方法在自然语言处理会议论文集》,第2357-2367页,在线及多米尼加共和国蓬塔卡纳,2021年11月。计算语言学协会。doi: 10.18653/v1/2021.emnlp-main.182。URL https://aclanthology.org/2021.emnlp-main.182。
Ella Rabinovich、Samuel Ackerman、Orna Raz、Eitan Farchi 和 Ateret Anaby Tavor。通过语义一致性预测大型语言模型的问题回答性能。在 Sebastian Gehrmann、Alex Wang、João Sedoc、Elizabeth Clark、Kaustubh Dhole、Khyathi Raghavi Chandu、Enrico Santus 和 Hooman Sedghamiz(编辑),《第三届自然语言生成、评估与度量研讨会论文集》(GEM),第138-154页,新加坡,2023年12月。计算语言学协会。URL https://aclanthology.org/2023.gem-1.12。
Harsh Raj、Domenic Rosati 和 Subhabrata Majumdar。通过语义一致性衡量大型语言模型的可靠性,2022。
Harsh Raj、Vipul Gupta、Domenic Rosati 和 Subhabrata Majumdar。通过语义一致性确保大型语言模型的可靠性,2023。URL https://arxiv.org/abs/2308.09138。
Harsh Raj、Vipul Gupta、Domenic Rosati 和 Subhabrata Majumdar。通过引导链改进大型语言模型的一致性。《机器学习研究交易》,2025。URL https://arxiv.org/abs/2502.15924。
Harald Semmelrock、Simone Kopeinik、Dieter Theiler、Tony Ross-Hellauer 和 Dominik Kowald。机器学习驱动研究的可重复性。arXiv预印本 arXiv:2307.10320,2023。
Lingfeng Shen、Weiting Tan、Sihao Chen、Yunmo Chen、Jingyu Zhang、Haoran Xu、Boyuan Zheng、Philipp Koehn 和 Daniel Khashabi。语言障碍:剖析多语言环境下LLM的安全挑战。在 Lun-Wei Ku、Andre Martins 和 Vivek Srikumar(编辑),《计算语言学协会发现:ACL 2024》,第2668-2680页,泰国曼谷,2024年8月。计算语言学协会。doi: 10.18653/v1/2024.findings-acl.156。URL https://aclanthology.org/2024.findings-acl.156。
Derek Tam、Anisha Mascarenhas、Shiyue Zhang、Sarah Kwan、Mohit Bansal 和 Colin Raffel。通过新闻摘要评估大型语言模型的事实一致性。在 Anna Rogers、Jordan Boyd-Graber 和 Naoaki Okazaki(编辑),《计算语言学协会发现:ACL 2023》,第5220-5255页,加拿大多伦多,2023年7月。计算语言学协会。
Zhaorui Tan、Xi Yang、Zihan Ye、Qiufeng Wang、Yuyao Yan、Anh Nguyen 和 Kaizhu Huang。SSD:朝着更好的文本-图像一致性度量迈进。arXiv预印本 arXiv:2210.15235,2022。
Ahmet Üstün、Viraat Aryabumi、Zheng-Xin Yong、Wei-Yin Ko、Daniel D’souza、Gbemileke Onilude、Neel Bhandari、Shivalika Singh、Hui-Lee Ooi、Amr Kayid 等人。AYA模型:一种指令微调的开放访问多语言模型。arXiv预印本 arXiv:2402.07827,2024。
Rik van Bergen、Bo van der Schalk、Nadin Kökciyan、Jahna Otterbacher、Jutta Haider 和 Nadja Terzimehić。“作为AI语言模型,我不能”:调查LLM对用户请求的拒绝。在《2024 CHI计算系统中的人为因素会议论文集》,第1-16页。ACM,2024。doi: 10.1145 / 3613904.3642135 10.1145 / 3613904.3642135 10.1145/3613904.3642135。
Alex Wang、Kyunghyun Cho 和 Mike Lewis。提问与回答以评估摘要的事实一致性。在 Dan Jurafsky、Joyce Chai、Natalie Schluter 和 Joel Tetreault(编辑),《计算语言学协会第58届年会论文集》,第5008-5020页,在线,2020年7月。计算语言学协会。doi: 10.18653/v1/2020.acl-main.450。URL https://aclanthology.org/2020.acl-main.450。
Boxin Wang、Chejian Xu、Shuohang Wang、Zhe Gan、Yu Cheng、Jianfeng Gao、Ahmed Hassan Awadallah 和 Bo Li。对抗性GLUE:用于评估语言模型鲁棒性的多任务基准,2022。URL https://arxiv.org/abs/2111.02840。
Xuezhi Wang、Jason Wei、Dale Schuurmans、Quoc V Le、Ed H. Chi、Sharan Narang、Aakanksha Chowdhery 和 Denny Zhou。自一致性改善了语言模型中的思维链推理。在《第十一届国际学习表示会议》,2023。URL https://openreview.net/forum?id=1PL1N1MMrw。
Yuxia Wang、Minghan Wang、Muhammad Arslan Manzoor、Fei Liu、Georgi Georgiev、Rocktim Jyoti Das 和 Preslav Nakov。2024年大型语言模型的事实性,2024。URL https://arxiv.org/abs/2402.02420。
Jason Wei、Xuezhi Wang、Dale Schuurmans、Maarten Bosma、Brian Ichter、Fei Xia、Ed Chi、Quoc Le 和 Denny Zhou。思维链提示激发了大型语言模型中的推理。arXiv预印本 arXiv:2201.11903,2022。
Peter West、Ximing Lu、Nouha Dziri、Faeze Brahman、Linjie Li、Jena D. Hwang、Liwei Jiang、Jillian Fisher、Abhilasha Ravichander、Khyathi Chandu、Benjamin Newman、Pang Wei Koh、Allyson Ettinger 和 Yejin Choi。生成式AI悖论:“它能创造的,它可能并不理解”。在《第十二届国际学习表示会议》,2024。URL https://openreview.net/forum?id=CF8H8MS5P8。
Xiaolin Xing、Zhiwei He、Haoyu Xu、Xing Wang、Rui Wang 和 Yu Hong。评估大型语言模型中的基于知识的跨语言不一致性。ArXiv,abs/2407.01358,2024。URL https://api.semanticscholar.org/CorpusID:270870062。
Linyi Yang、Yingpeng Ma 和 Yue Zhang。衡量基于文本的金融预测模型的一致性。在 Anna Rogers、Jordan Boyd-Graber 和 Naoaki Okazaki(编辑),《计算语言学协会第61届年会论文集(长篇论文卷)》,第13751-13765页,加拿大多伦多,2023年7月。计算语言学协会。doi: 10.18653/v1/2023.acl-long.769。URL https://aclanthology.org/2023.acl-long.769。
Mian Zhang、Lifeng Jin、Linfeng Song、Haitao Mi 和 Dong Yu。不一致的对话响应及其恢复方法。在 Yvette Graham 和 Matthew Purver(编辑),《计算语言学协会发现:EACL 2024》,第220-230页,马耳他圣朱利安斯,2024年3月。计算语言学协会。URL https://aclanthology.org/2024.findings-eacl.16。
Wenqi Zhang、Yongliang Shen、Linjuan Wu、Qiuying Peng、Jun Wang、Yueting Zhuang 和 Weiming Lu。自我对比:通过不一致的解决视角获得更好的反思。在 Lun-Wei Ku、Andre Martins 和 Vivek Srikumar(编辑),《计算语言学协会第62届年会论文集(长篇论文卷)》,第3602-3622页,泰国曼谷,2024年8月。计算语言学协会。URL https://aclanthology.org/2024.acl-long.197。
Yukun Zhao、Lingyong Yan、Weiwei Sun、Guoliang Xing、Shuaiqiang Wang、Chong Meng、Zhicong Cheng、Zhaochun Ren 和 Dawei Yin。通过一致性对齐提高大型语言模型的鲁棒性,2024。URL https://arxiv.org/abs/2403.14221。
Di Zhou 和 Yinxian Zhang。双语GPT模型中的政治偏见与不一致性——美国和中国的案例。《科学报告》,14,2024年10月。doi: 10.1038/s41598-024-76395-w。
附录:多模态一致性
直到2022年,所有一致性研究都在分析语言模型对各种文本扰动或语义等价文本的鲁棒性。从2022年开始,一些对非文本模态的兴趣开始出现,这主要来自文本到图像模型分析。例如,Tan等人(2022)探讨了在视觉语言理解任务中从给定文本生成一致且高质量图像的挑战,并强调了设计更好的文本-图像一致性度量的重要性,这一问题在社区中仍较少被探索。在他们的研究中,Tan等人(2022)提出了一种基于CLIP的新度量Semantic Similarity Distance (SSD),该度量显著提高了文本-图像一致性,同时保持了良好的图像质量。
文本到图像模型中一致性的量化尝试由Berglund等人(2024)继续进行,他们提出了一个新颖的语义一致性评分,用于图像生成,该评分与人工标注者有很强的一致性。最近,West等人(2024)试图评估生成模型在语言和视觉领域中的理解能力。West等人(2024)通过开放式视觉问答对图像理解模型进行了探究性评估。他们研究了模型在询问其生成图像内容时是否产生一致输出,并发现尽管模型在生成方面可以超越人类,但它们经常表现出生成与理解性能之间的不一致性。
参考论文:https://arxiv.org/pdf/2505.00268