Large Language Models and Causal Inference in Collaboration: A Comprehensive Survey

摘要:

因果推断通过捕捉变量之间的因果关系,展示了提高自然语言处理(NLP)模型的预测准确性、公平性、鲁棒性和可解释性的潜力。生成性大型语言模型(LLMs)的出现显著影响了各个NLP领域,特别是通过它们先进的推理能力。本调查聚焦于从因果视角评估和改进LLMs,包括理解并提高LLMs的推理能力、解决LLMs中的公平性和安全问题、补充LLMs的解释能力,以及处理多模态问题。同时,LLMs强大的推理能力反过来可以促进因果推断领域,通过帮助发现因果关系和估计因果效应。本综述从两个角度探讨了因果推断框架和LLMs之间的相互作用,强调它们共同推动更先进和公平的人工智能系统的发展潜力。

引言:

近年来,大型语言模型(LLMs)在一系列关键任务中展示了显著的多功能性。LLMs擅长于各种任务,如文案撰写、增强原始句子的风格和声音、响应知识库查询、生成代码、解决数学问题,以及执行根据用户需求量身定制的分类或生成任务。此外,最近扩展到多模态变体,如大型视觉语言模型(LVLMs)或大型多模态语言模型,这些模型扩大了它们的输入/输出能力,以包含各种模态。这种演变显著增强了这些模型的潜力和应用范围。在本次调查中,我们主要关注基于Transformer的LLMs。LLMs的能力根本上根植于它们的推理能力,这决定了它们在理解、处理和解决各种问题以及适应社会影响领域的熟练程度。因此,大量的研究工作致力于衡量和增强这些能力,从评估LLMs的推理能力到审查它们的决策过程,以及解决跨不同模态的概念对齐和减轻幻觉等挑战。此外,由于LLMs是在广泛的人类知识上训练的,拥有数十亿个参数,它们有时在适当地优先考虑或淡化它们在不同情境中学到的内容方面面临挑战。这可能导致领域偏移问题,即模型在与训练集不同的数据上的性能下降,以及长尾偏差,即不频繁的例子处理不够有效。在许多情况下,语言任务不仅需要根据数据中的模式预测或生成文本,还需要理解驱动这些模式的潜在因果机制。因果推断在提高自然语言处理(NLP)模型的预测准确性、公平性、鲁棒性和可解释性方面展示了巨大潜力。随着生成性LLMs的出现,各个NLP领域发生了显著的变革,吸引了越来越多的研究兴趣,应用因果推断来解决与LLMs相关的挑战并增强它们的功能。这种变革也激励了本次调查,概述了因果推断方法及其在LLMs中的实施,强调了它们在丰富我们对语言模型的理解和应用中的作用。同时,本次调查还旨在探索LLMs如何帮助因果推断框架。因果推断被正式定义为一门知识学科,它考虑了允许研究人员基于数据得出因果结论的假设、研究设计和估计策略。因果推断有三个主要来源:潜在结果、图形和结构方程,每种都服务于独特的目的。潜在结果框架侧重于通过统计推断和处理比较来估计因果效应。与此同时,图形模型擅长于绘制因果路径和可视化关系,节点代表变量,边缘表示方向性影响。在本次调查中,我们主要讨论了Pearl的因果图的公式化,它使用有向无环图(DAGs)正式化了因果图形模型,用于表示随机变量之间的条件独立关系。我们总结了LLMs如何帮助因果推断的两个重要组成部分,即因果关系发现和治疗效果估计。确定变量之间的因果关系是因果推断框架中的基本步骤,因为估计变量A对变量B的因果效应需要对A和B与其他变量的因果关系的因果假设。传统上,研究人员依赖于具有专业知识的专家来为这种因果关系奠定基础。因果发现方法提供了一种替代方案,通过从观测数据中发现因果图。LLMs已经证明了它们能够基于预训练的知识或给定的文本确定这种因果关系。它们还可以与因果发现方法集成,以进一步提高结果的可靠性。估计治疗效果是因果推断的核心,但在许多情况下,由于缺乏反事实数据而受到阻碍。利用LLMs强大的反事实推理能力,研究人员已经开发了各种方法来生成高质量的反事实数据,以实现治疗效果估计。调查的结构在图1中给出。我们从第2节开始介绍大型语言模型的最新进展。然后我们在第3节提供了一个概述,介绍用于改进LLMs的因果推断方法。在论文的前半部分,我们通过各种问题在LLM社区中使用这些方法的方式:第4.1节概述了如何使用因果方法来衡量和提高LLM的推理能力,第4.2节和第4.3节关注公平性和安全问题,而第4.4节介绍了如何通过因果推断方法来补充LLM的可解释性。我们还讨论了第4.5节中多模态大型模型的构建和发展。最后,我们在第4.6节列出了从因果视角评估和基准测试LLMs的现有工作。在调查的后半部分,我们转向LLM如何扩展因果推断的边界。第5.1节解释了因果推断的当前假设、限制和瓶颈。第5.3节和第5.2节陈述了改进治疗效果估计和因果发现的当前工作。我们在第6节强调了几个未来的发展方向。

大型语言模型的背景

大型语言模型(LLMs)已经改变了我们与语言的互动和处理方式,为自然语言理解、生成和通信开辟了新的可能性。这些模型处于不断进化的状态,不断扩大语言处理和人工智能领域所能达到的极限。在本文中,我们主要关注基于Transformer的LLMs,并在本节中提供了它们的最新进展的概述。

大型语言模型(LLM)的主要突破发生在2017年,当时引入了Transformer模型。这一突破性的转变使得Transformer技术出现,掌握了把握长期语言联系的艺术。这一创新不仅仅是理论上的——它允许在多个GPU上同时训练,为创建更大的模型铺平了道路。接着在2018年,OpenAI发布了GPT-1,这不仅仅是自然语言处理(NLP)的又一步;由于其基于Transformer的架构,这是一个飞跃。拥有1.17亿参数的GPT-1不仅仅是在处理数据;它在编织上下文连贯的句子,展示了Transformer在重新定义NLP任务中的变革力量。尽管GPT-1最初有局限性,但它不仅仅留下了印记;它为新的AI探索浪潮奠定了基础,并在LLM领域引发了激烈的竞争。2020年,OpenAI发布了GPT-3,它能够生成高度连贯和自然听起来的文本。这是一个大事件,因为它展示了这些庞大的语言模型在各种语言任务上的强大能力。在GPT-3成功的推动下,OpenAI发布了他们的语言模型的下一个迭代版本,GPT-4,它能够生成更加连贯和自然听起来的文本。在GPT-4的成功之后,谷歌也紧随其后推出了他们的Bard。亚马逊为Alexa增加了一些很酷的AI功能,华为推出了他们的Pangu模型,阿里巴巴提出了他们的QWEN模型。然后Meta推出了名为LLaMA的东西,这是关于第一个开源基础模型。与LLaMA相比,LLaMA2在从人类反馈中进行强化学习(RLHF)方面进行了更多的探索,并开发了一个面向聊天的版本LLaMA-chat,它在一系列有用性和安全基准上普遍优于现有的开源模型。许多研究人员通过指令调整或持续预训练扩展了LLaMA模型。Alpaca是基于LLaMA的第一个开放指令遵循模型。此外,Vicuna是另一个流行的LLaMA变体,它基于从ShareGPT收集的用户共享对话进行了训练。随着LLMs的不同版本出现,它们遇到了共同的挑战。在本次调查中,我们展示了通过因果方法可以有效地解决这些挑战。这些方法包括增强LLMs的推理能力,解决公平性问题和减轻潜在偏见,确保安全性,并增强模型输出的可解释性,以及它们向多模态版本的扩展。在这一进展的基础上,现在有越来越多的兴趣将这些模型的范围扩展到包括视觉数据,从而出现了大型视觉语言模型(LVLMs)。这些模型旨在整合对文本和视觉信息的理解,为更全面的AI系统开辟新途径,这些系统能够以多模态格式解释和生成内容。最常见的方法之一是将视觉特征作为补充输入插入到LLMs中,并将其与文本特征对齐。这种方法已经在几个大型视觉语言模型(LVLMs)中得到了应用,如MiniGPT-4、LLaVA、Mplug-Owl等。在本次调查中,我们还展示了因果方法如何帮助解决现有LVLMs中遇到的挑战。

3. 因果推断简介

本节我们介绍因果推断的背景知识,包括任务描述、基本概念和符号,以及一般解决方案。一般来说,因果推断的任务是估计变量之间的因果关系。感兴趣的变量被称为处理(treatment),自然地,处理的效果被称为处理效果。例如,假设可以对患者应用两种治疗方案:治疗方案A和B。当A应用于某个患者队列时,恢复率为70%,而当B应用于同一队列时,恢复率为80%。恢复率的变化是该治疗资产对恢复率的影响。理想情况下,治疗效果可以按以下方式测量:对同一队列应用不同的治疗,然后效果的差异就是治疗效果。然而,在现实世界的场景中,这种理想情况很少出现,因为在大多数情况下,进行完全控制的实验是不切实际的。例如,在上述情况中,你只能在同一队列上应用一种治疗。在现实中,另一种选择是进行随机对照试验,其中治疗分配是受控的,例如完全随机分配。通过这种方式,接受不同治疗的组可以用来测量效果的差异。不幸的是,即使进行随机实验也是昂贵的、耗时的,并且在某些情况下可能会引起道德问题。因此,从观测数据估计治疗效果引起了越来越多的关注,由于观测数据的广泛可用性,开发了不进行随机实验的方法来调查某种治疗的因果效果。

3.1 潜在结果框架

在识别和量化观测数据中的因果效应方面,最有影响力的框架之一是潜在结果框架。潜在结果方法将因果关系与应用于单元的处理联系起来,并通过它们对应的潜在结果比较不同处理的因果效应。遵循[80],我们陈述潜在结果框架中的基本概念。单元。单元是治疗效果研究中的原子研究对象。单元可以是一个物理对象、公司、患者、个人,或者是对象或个人的集合,例如教室或市场,在特定时间点[80]。在潜在结果框架下,不同时间点的原子研究对象是不同的单元。处理。处理是指应用于单元的动作(暴露或使对象受到)。对于每个单元-处理对,当该处理应用于该单元时的结果是潜在结果。对于N种处理T = {1, 2, 3, ..., N},应用处理Ti的潜在结果表示为Y (T = Ti)。观察到的结果实际上是应用的处理的结果。反事实结果如果单元采取了另一种处理的结果。治疗效果 治疗效果可以使用上述定义进行量化。治疗效果可以在人群、治疗组、子组和个体水平上进行测量。在人群水平上,治疗效果估计为平均治疗效果(ATE)。在子组水平上,治疗效果称为条件平均治疗效果(CATE)。

定义3.1(二元平均治疗效果(ATE)。假设我们想要测量处理T = 1的治疗效果。那么平均治疗效果定义为:

E[Y (T = 1) − Y (T = 0)](1)

其中Y (T = 1)和Y (T = 0)分别表示整个人群的潜在治疗和对照结果。

定义3.2(条件平均治疗效果(CATE))。

E[Y (T = 1)|X = x] − E[Y (T = 0)|X = x](2)

其中E[Y (T = 1)|X = x], E[Y (T = 0)|X = x]是X = x的子组的潜在治疗和对照结果。

在个体水平上,治疗效果被定义为个体治疗效果(ITE)。在一些文献中,ITE被视为与CATE相同[75]。

3.2 因果图形模型

潜在结果框架在恢复原因效应方面非常强大。在潜在结果框架中,通过特定处理的操作来回答因果效应。然而,当涉及到识别因果路径或可视化因果网络时,潜在结果模型有其局限性。面对挑战时,因果图形模型利用有向边来表示因果关系,并在图中编码变量之间的条件独立性。

3.2.1 结构方程模型(SEMs)

最广泛传播的表述之一是结构方程模型[99, 76],其中线性结构方程模型用于通过有向边呈现因果关系,当给定图结构时,区分相关性与因果关系。线性假设后来被[76]放宽,它使用有向无环图(DAGs)正式化了因果图形模型,用于呈现因果关系。具体来说,考虑随机变量X ∈ RD×N = [X1, X2, ..., XN],线性SEM由一组方程组成,形式如下:

Xi = β0i + ∑j∈pa(Xi) βjiXj + ǫi, i = 1, 2, 3, ..., N(3)

其中pa(Xi)表示Xi的直接父变量集合。ǫ1, ǫ2, ..., ǫN是相互独立的噪声项,均值为零,βji是量化Xj对Xi的因果效应的系数。而非参数SEM的形式为:

Xi = fi(Xpa(i), ǫi), i = 1, 2, 3, ..., N(4)

满足方程(3)或方程(4)的模型结构的随机变量X可以由有向无环图(DAG)G = (V, E)表示,其中V是相关顶点集合,每个顶点对应于一个感兴趣的变量Xi,E是相应的边集。在预指定的DAG和对潜变量的假设下,潜变量之间的系数是可识别的[46]。

3.2.2 贝叶斯网络

因果推断可以自然地嵌入到图形模型框架中,因为变量之间的依赖性和交互作用可以通过具有概率分布的图形来表示,其中节点对应于感兴趣的变量,边代表关联。除了SEMs之外的一种通用解决方案是使用贝叶斯网络来表示因果关系。在贝叶斯网络中,变量之间的因果关系以有向边的形式表示,有向边携带因果信息。如果联合概率分布P满足:

f(X1, X2, ..., XN) = ∑i f(Xi|Xpa(i))(5)

则联合概率分布P相对于DAG G分解。

在下一节中,我们将展示现有工作如何详细帮助LLMs的任务和挑战。

4. 因果推断对大型语言模型的影响

LLMs 可以从因果推断中显著受益,因为它增强了它们理解和推理数据中因果关系的能力。在本节中,我们从以下几个角度回顾了LLMs如何从因果视角中受益:理解并提高LLMs的推理能力(第4.1节),解决LLMs中的公平性(第4.2节)和安全性(第4.3节)问题,补充LLMs的解释能力(第4.4节),以及处理多模态问题(第4.5节)。然后我们在第4.6节中组织了从这些角度出发的基准数据集。

4.1 推理能力

4.1.1 模型理解

LLMs已经在语言生成和某些推理任务中展示了多种新兴能力。由于推理过程通常与因果因素相关,因此首先从因果视角理解和评估LLMs的推理能力是合乎逻辑的。Zečević等人认为LLMs并非因果模型,并假设LLMs仅仅是在数据上进行训练,其中嵌入了因果知识。因此,在推理阶段,LLMs可以直接复述因果知识,而无需理解上下文中的真正因果关系。在因果推理评估基准(CRAB)中也展示了类似的行为,该基准由1.8K因果框架和352个真实世界叙述中的因果链组成,要求LLMs输出变量之间的因果关系类别(高、中、低或无因果关系)。他们表明LLMs可以捕捉到预训练数据中的显式因果陈述,但在将因果推理应用于新分布时,即预训练阶段之后发生的事件,它们的性能会下降。Kim等人检查了LLMs在理解科学论文和报纸中的因果关系的能力。他们的评估协议旨在让LLM判断一个陈述是否是因果关系、条件因果关系、相关性或无关系。结果显示,ChatGPT在理解因果关系方面的表现不如经过微调的BERT模型。Abdali等人展示了将LLMs应用于诊断Microsoft Windows反馈中心问题原因的有效性。Li等人展示了LLMs可以识别动态(时空)效应。然而,如何推断它们之间的关系和相互作用对LLMs来说仍然是一个挑战,这在因果推断中更被强调为因果结构。另一项重要的工作是通过考虑因果效应来理解LLMs在知识推理中的幻觉和忠实度。Tang等人提出了一个多智能体系统CaCo-CoT,其中一些LLMs是推理器,其他是评估器。推理器试图提供因果解决方案,而评估器则试图用反事实候选项挑战推理器。通过合作推理框架,CaCo-CoT有助于提高因果一致性。Zhang等人识别了预训练在LLMs中的潜在知识偏差作为混杂因素,这会导致错误答案和幻觉。Zhang等人提出了一个链式问题框架,生成回答一个问题所必需的子问题,并涉及人类在循环中提供正确答案。通过人类注释循环,可以减少混杂因果效应,从而减轻虚假相关性。

4.1.2 常识推理

常识推理涉及应用日常知识和对世界的直观理解来做出决策或得出结论,这对LLMs的上下文理解和类人交互至关重要。本节简要总结了LLMs在各种设置下的常识推理能力,以及采用因果驱动方法改进常识因果推理的情况。通过对ChatGPT在事件因果关系识别、因果发现和因果解释生成方面的性能评估,Gao等人表明ChatGPT不是一个好的推理者,但是一个良好的因果解释者。ChatGPT,甚至gpt-4在事件因果关系识别方面的表现不如基于微调的小型预训练语言模型的基线方法,并且在因果发现方面表现不佳。他们还在上下文学习和思维链设置下观察到因果推理方面的严重幻觉。在因果问题回答能力方面也得出了类似的结论,该研究得出LLMs不是通过推理得出答案,而是通过记忆相应的问题和答案对。即使ChatGPT可能没有因果推理能力,它在某些情况下仍然可以生成准确和详细的因果解释。为了提高LLMs从自然语言中识别因果关系的常识因果推理能力,ROCK(关于常识因果关系的推理)使用时间倾向平衡混杂效应。该框架的核心问题是估计平均治疗效果(ATE)。给定两个事件E1先于E2,E1对E2的因果强度可以通过干预E1来估计E2发生概率的变化,表示为ATE。虽然ROCK采用了潜在结果框架,但Chen等人使用基于直觉理论的对话认知模型,并将直观推理转化为结构因果模型。为了提高对话推理能力,作者将欲望、记忆、经验和情感等心理状态纳入模型,作为隐含影响相应可观察话语的不可观测外生变量。

4.1.3 反事实推理

LLMs的生成能力另一个潜在用途是为小型语言模型的数据增强生成反事实。给定一段文本x和一个黑盒分类器B,文本x的反事实文本˜x应满足以下要求:1. ˜x与x的类别不同,B(x) ̸= B(˜x)。2. x和˜x只通过最小的词汇变化不同。3. ˜x是可行的文本,并且满足常识约束。本节简要讨论了LLMs在生成反事实方面的表现,以及提高其质量的努力。Li等人检查了LLMs在四项任务中生成反事实的有效性:(1)情感分析(SA)改变情感极性;(2)自然语言推理(NLI)给定一个前提句子和假设句子,改变假设句子以改变它与前提句子的关系;(3)命名实体识别(NER)改变句子中与原始实体类型相同的实体;(4)关系提取(RE)改变头实体和尾实体之间的关系。已经证明,对于像SA和NLI这样的简单任务,通过LLMs增强的数据可以减轻潜在的虚假关联。对于像RE这样更复杂的任务,LLMs可能会生成低质量的反事实。为了生成高质量的反事实,详细的指导至关重要。然而,反直觉地,思维链并不总是有帮助,因为它有时甚至可能导致某些设置下的性能显著下降。另一方面,Liu等人评估了大型语言模型的代码(Code-LLMs)的演绎推理和反事实推理能力,并将它们与文本模型进行了比较。通过设计用于解决因果推理任务的代码提示,已经表明Code-LLMs比文本模型取得了更好的结果。正如评估所示,尽管LLMs作为反事实生成器可以提高小型语言模型在简单任务(如情感分析和自然语言推理)上的性能,但生成的反事实对复杂任务(如关系提取)没有任何显著影响。Miao等人声称这是因为未能正确识别因果术语并忽略了常识约束。为了弥补这一点,他们提出了一个框架,通过基于干预策略生成常识反事实,以稳定关系提取。这个框架被证明在各种设置下增强了关系提取任务的稳定性,包括资源匮乏、领域外和对抗性攻击场景。

4.2 公平性和偏见

公平性和偏见是有效和道德部署语言模型的关键因素。偏见在预训练语言模型中很常见,因为它们捕捉并可能放大不期望的社会刻板印象和偏见。语言模型中的偏见例子包括性别与特定职业的关联,如男性消防员和女性护士。基于因果的方法为减轻语言模型中的偏见提供了一个有希望的途径,通过因果视角识别偏见的起源。然后通过不同类型的因果干预或因果不变学习消除不想要的虚假相关性。Ding等人在因果图中引入了一个与性别偏见相关的代理变量,并使用两种不同的方法在线性结构方程模型下消除潜在的代理偏见和未解决的偏见。Zhou等人认为,真实标签与非因果因素之间的后门路径是偏见的来源,并使用独立因果机制(ICM)原则来减轻偏见。他们提出的方法Causal-Debias实现了因果干预,并通过扩展和增加原始数据分布,为不同的人群创建了干预分布。Wang等人对现有因果模型中参数估计的准确性提出了质疑,并引入了几个中间变量,这些变量是原始文本的因果子变量,也是语言模型输入的因果父变量。在这种假设下,他们提出通过对中间变量执行“do”操作来消除偏见,无论是白盒LLMs还是黑盒LLMs。Madhavan等人考虑了通过因果语言建模(CLM)目标训练的生成语言模型生成的标记作为因果图,并在此模型下分析偏见。Jenny等人使用活动依赖网络(ADNs)来描述规范变量(如清晰度和真实性)之间的因果效应,以构建偏见的原因。作者认为,使用ADNs可以更好地解释以前仅使用相关性简化偏见的观点,并展示识别和减轻大型语言模型中偏见的复杂性质。

4.3 安全性

随着语言模型在多个下游任务中的应用,研究人员观察到LLMs在知识探测[15]或下游推理任务[9, 122, 118, 69]中的不可靠性现象。人们越来越有兴趣应用因果推断技术来分析模型不稳健性的原因,并调整处理方法以解决挑战[15, 118, 122, 56]。

知识探测 为了引出LLMs编码的知识,先前的工作使用基于提示的提示,即用特定任务的提示查询LMs。然而,在此过程中,LLMs面临不可靠性的挑战[15, 102],例如使用捷径来完成探测,并为语义等价的提示生成不同的预测。为了探索非稳健性背后的原因,[15]中的实证研究构建了一个包含11个变量的结构因果模型(SCM),并确定了知识探测过程中的三种偏差类型:提示偏好偏差、实例言语化偏差和样本差异偏差。阻断每种偏差类型的相应后门路径可以有效消除偏差。这一发现揭示了使用LLMs构建SCM来提高LLMs稳健性的潜力。

下游推理任务 除了知识探测,LLMs在遇到下游推理任务中的提示攻击时表现出脆弱性[118, 122]。通过简单地将输入提示中的文本标记翻译成表情符号序列,LLMs会产生更严重的幻觉[122]。LLMs中的一些神经元对模型响应有不合理的因果效应,通过改变该神经元的值,LLMs将产生无意义的响应[122]。LLMs在提示攻击中失败的主要原因是它使用虚假的相关性进行推理[118]。训练LLMs学习输入x和输出y之间的因果关系是更好地抵抗提示攻击的直观方法。随机平滑技术[112, 39]可以通过假设离散的对抗性扰动为高斯分布来模拟干预分布p(y|do(x))[118]。在潜在语义空间中平滑的方法更能抵抗已知攻击,如单词替换、释义和标记位置变化[118]。因果推断技术有助于诱导LLM应用的稳健性。对于没有提示攻击的设置,通过识别因果关系并阻断后门路径可以减轻LLM不可靠性。此外,在抵抗提示攻击方面,平滑潜在语义空间是有效的。尽管因果关系分析取得了进展,但仍有一些方向需要探索,例如预训练语料库与模型稳健性之间的因果关系,以及在生成任务中稳健性评价方法。

4.4 解释性

LLMs中的解释性指的是阐明这些模型如何得出其结论的能力,增强了AI决策过程中的透明度和可信度[32, 54]。许多工作已经尝试解释和理解LLMs的内部工作机制[35, 10, 33, 119, 55]。我们总结了从以下三个方向探索LLMs因果机制的研究努力:干预输入或提示、干预LLMs内部组件,以及将工作机制抽象为因果图。

输入或提示干预 输入干预是一种以数据为中心的方法,通过改变文本中被处理的特征来创建反事实输入文本,并观察模型对原始和反事实文本的行为。招募个人产生反事实文本通常会涉及巨大的费用。然而,LLMs的出现表明,生成反事实输入文本可以以较低的成本实现。LLMs首先能够识别输入文本中与预测因果相关的特征,并能够改变这些已识别的特征来创建反事实文本[12, 28]。这些反事实文本可以用来调查LLM的因果关系,并可以作为训练数据集来学习匹配模型,其中匹配的反事实对具有相似的嵌入[28]。各种工作已经开发了不同的提示方法,并发现这些提示方法是否与LLMs的最终输出因果相关[81, 125, 97]。然而,提示方法(如思维链(CoT))与最终输出之间的因果效应是不明确的。提示干预,仅改变提示的一个特定方面,被提出来理解提示的每个组件对模型行为的贡献[64]。来自[64, 38]的实验首先发现语言特征和语法对LLMs输出有很大的影响。然后,干预提示中的中间变量会导致与假设因果模型的预期输出一致的一致最终答案[87]。这些发现表明,LLMs在很大程度上实现了它们的思维链所建议的因果模型,但LLMs也利用诸如句子长度之类的虚假相关性来做出响应。输入或提示干预是以数据为中心的方法,用于探测LLM机制,应用于开源或黑盒LLMs。然而,这种方法无法发现LLM内部的详细信息,因此提出了对内部模型组件的干预。

内部组件干预 注意力机制和多层感知器(MLP)层是最新(SoTA) LLMs结构中的基本组件。现有工作交换了不同输入的MLP和注意力层中的激活值,以探测MLP和注意力机制在生成答案中的功能[83]。实验结果表明,LLMs使用注意力机制将输入信息从中间序列的早期层转移到最终标记。由于LLMs的复杂性,当前的工作仅关注具有四个基本算术运算符的数学文字问题[83]。将组件干预推广到其他下游任务是一个有趣的方向。

因果图抽象 描述LLMs内部因果关系的直观方法是将LLMs的工作机制抽象为因果图。通过替换原始DAS[29]的暴力搜索为可学习参数,Boundless Distributed Alignment Search (DAS)[101]在Alpaca模型[89]上已经有效。给定四个预定义的因果模型,Boundless DAS提取了其中两个作为Alpaca模型的准确假设作为抽象的因果图。然而,Boundless DAS方法受到给定因果假设的限制,未来的研究方向可以探索如何在没有先验因果图的情况下抽象LLMs中的因果图。当前从因果视角的解释性工作使用LLMs来解释现实世界事件中的因果关系。LLMs可以生成高质量的反事实。通过改变LLMs的内部值并将因果关系抽象化,当前的工作已经指出了一个方向来描述LLMs在各种任务上的内部因果关系。然而,这些提到的LLM解释性工作的范围集中在具有清晰因果图的任务上,例如简单的数学文字问题。探测LLMs在更复杂的生成任务(如问答或摘要任务)中的因果关系,可以为LLMs的内部机制提供更多见解。

4.5 多模态性

大型视觉语言模型在许多应用中变得流行[63, 48, 59, 30]。如何在图像和文本上进行因果推理对于正确回答多模态问题至关重要。Pawlowski等人[74]检查了LLMs的因果推理能力,并表明语言模型中的因果知识可能是一个过于强大的先验,这常常导致模型忽略视觉证据。Ko等人[45]提出通过添加自洽生成预测来缓解这个问题,在这种方法中,三个输入V、Q和A都基于其他两个输入单独预测。具体来说,Li等人[49]提出了一个带有因果推理的图像生成框架,并创建了一个需要因果解释的新VQA数据集。另一个重要问题是理解图像和视频中视觉元素的时空因果关系。Su等人[85]提出了一个框架CaKE-LM,利用预训练语言模型中的因果知识来理解视频中事件的因果关系。基于生成的因果推理结果,CaKE-LM可以进一步生成问答对,并构建一个新的因果视频问答基准。Tai等人[86]提出了链接上下文学习方法,通过指导模型理解示例数据点之间的潜在因果关系,来加强LLM的上下文学习能力。Zhao等人[121]建议在VQA中有两种类型的因果关系。他们提出了一种提示方法,因果上下文生成,以吸引上下文信息,以提高VQA的准确性。

4.6 评估和基准测试

在本节中,我们列出了从因果视角对LLMs进行评估的现有评估指标和基准测试,如第4.6节所列。因果评估主要关注以下三个方面:模型理解(MU)能力、常识推理(CR)能力和反事实推理(CF)能力,以及公平性/去偏见(FD)能力。

参考

MU

CR

CF

FD

语言

多模态

ECHO [103]

CREPE [115]

CLOMO [36]

IfQA [107]

Cladder [41]

MoCa [72]

CORR2CAUSE [40]

CVidQA [85]

VQAI [49]

Chen et al. [18]

Gao et al. [27]

CRAB [79]

HELM [53]

Fair-Prism [25]

Biasasker [94]

表1:我们总结了现有的评估基准。根据评估任务,我们将基准分为三类:模型理解(MU)、常识推理(CR)、反事实推理(CF)和公平性/去偏见(FD)。根据数据样本的模态,我们确定了只有文本输入(语言)的基准和具有多模态输入(多模态)的基准。

模型理解(MU)的基准专注于评估和理解现有LLMs在自然语言[41, 72, 40, 27, 79]和视觉语言[85, 49, 103]中的因果推理能力。此外,一些基准[72, 27]还提供了与人类因果推理和道德判断相比较的模型理解。常识推理基准(CR)评估LLMs在需要广泛常识知识的任务上的表现,无论是纯文本上下文[115, 41]还是多模态上下文[103]。在[41]中构建了常识和反常识的上下文,以进一步调查LLMs是否使用平均化的因果推理。评估LLMs的反事实推理(CF)能力对于实现可解释的模型推理和校准生成的理由至关重要。黄等人[36]介绍了一个特定任务和基准,用于评估LLMs的逻辑反事实思维。余等人[107]为挑战LLMs在开放域问答中的反事实推理贡献了一个新数据集。陈等人[18]调查了LLMs在反事实情境中提供有助于理解其推理过程的解释的能力。公平性和偏见(FD)评估特别关注解决偏见、公平性和语言模型的整体透明度问题。HELM[53]是一个全面的评估基准,包括以前被忽视的公平领域。FairPrism[25]专门关注模型中与公平相关的伤害,这些伤害通过详细的人类注释来识别和测量。Biasasker[94]提出了一个自动化框架,通过用专门设计的问题探测模型来识别和测量社会偏见。

当然,这是文章中第五部分“Large Language Model for Causal Inference”的翻译:

5. 大型语言模型在因果推断中的应用

因果推断作为解决LLMs挑战的有力工具,严重依赖于世界知识。如前所述,因果推断有三个主要来源:潜在结果框架、基于图的因果方法和结构方程社区。潜在结果框架在很大程度上依赖于几个假设,以便于在群体/个体之间比较治疗效果。应用潜在结果框架最具挑战性的方面之一在于确保这些假设在现实中成立。在本节中,我们首先检查这些假设,然后说明现有文献中如何放宽这些假设。基于图的因果方法和结构方程模型也需要一定程度地理解潜在的因果图。例如,有向无环图(DAGs)是一个基本假设,许多结构方程模型假设了一定程度的线性,或者输入分布遵循特定的概率分布。在我们的综述中,我们还探讨了现有方法如何验证输入数据的分布,并扩展当前方法以适应更复杂的分布,借助LLMs的帮助。

5.1 估计治疗效果的基本假设

在现有的因果推断文献中,采用了几个假设来估计治疗效果。这里我们讨论三个最常用的假设,然后展示大型语言模型的发展如何帮助放宽或挑战这些基本假设。

假设 5.1(稳定单位治疗效果假设)。任何单位的潜在结果不会随着分配给其他单位的治疗而变化,对于每个单位,每种治疗水平没有不同形式或版本的治疗,导致不同的潜在结果。

该假设强调了在估计治疗效果时每个单位的独立性,即单位之间不相互影响。从统计学的角度来看,这相当于假设每个治疗分配对象是独立同分布的。

假设 5.2(可忽略性/无混杂性)。给定可观察的背景变量X,治疗分配T与潜在结果独立。

假设 5.2 表明,如果两个病人的背景变量X相同,那么(1)治疗分配应该是相同的。(2)潜在结果也应该相同。换句话说,这两个病人被视为相同的单位,因此如果他们在静态数据集中被分配不同的治疗,可以用他们来估计治疗效果,因为治疗分配被视为随机的。

假设 5.3(积极性)。对于X的任何值,治疗分配不是确定性的。即,

P(T = t|X = x) > 0, ∀t, x (7)

这个假设试图保证治疗效果可以被估计,并且我们总是可以找到可比较的样本。在二元情况下,如果任务是估计特定治疗T = 1的性能,我们需要比较接受治疗的病人与未接受治疗的病人的潜在结果,需要数据集中的点在这两种情况下都有。

5.2 治疗效果估计

传统因果方法的一个主要障碍是缺乏反事实数据,使得在实践中估计因果效应成为一个困难的问题。陈等人[19]提出了一种新的方法,可以自动生成大规模高质量的反事实数据,称为DISCO(DIStilled COunterfactual Data)。具体来说,它提示使用大型通用语言模型生成短语变化。然后,特定任务的教师模型过滤这些生成物,以提炼高质量的反事实数据。此外,Feder等人[24]将治疗效果估计应用于对齐知识,以实现对不同领域的泛化。张等人[113]尝试通过LLMs执行自监督因果学习来优化未标记数据集上的治疗效果估计。通过探索最优协变量平衡和自注意力之间的原始-对偶连接,他们的方法促进了通过训练好的变换器类型架构的最后一层进行零次射击因果推断,为治疗效果估计的基础模型做出了贡献。

5.3 因果关系发现

发现变量之间的因果关系是因果推断的一个基本步骤,因为它使得识别和估计因果效应成为可能。在本节中,我们介绍讨论了LLMs如何帮助发现因果关系的论文。这一工作的一个方向集中在偶然关系提取或因果关系提取上,它直接从文本中提取两个变量之间的因果关系。传统方法依赖于因果连接词(例如,“cause”,“because”和“lead to”)和语法模式来识别因果对[104]。后来的工作利用了统计机器学习和深度学习的力量,在监督学习环境中解决这一任务[105]。由于LLMs在第4.1节中介绍的推理能力显示出有希望的潜力,许多工作使用LLMs作为查询工具,以确定两个给定变量之间的边缘方向。例如,Kıcıman等人[44]表明,LLMs在确定这种成对因果关系方面可以取得竞争性的表现,准确度高达97%。在医学领域的分析[71, 4, 5]显示出类似的观察结果。然而,其他研究强调了LLMs在这种成对因果关系方面的局限性。例如,对提示设计的敏感性导致结果不一致[61];成对判断可能导致完整因果图中的循环[92];成对判断在应用于大规模数据集时需要大量的计算成本,N个变量将需要Ω(N^2)提示[7];尽管在大多数情况下取得了强大的结果,LLMs仍然提供错误的信息[61, 91]。Long等人[61]提出了基于因果推断中的一致性属性修正LLMs输出的策略[61]。为了减轻来自LLMs的错误因果信息的影响,以前的工作将LLMs与传统因果发现方法结合起来。因果发现或因果结构学习是从观测数据中恢复因果图的任务,只要可能[108]。传统的因果发现方法主要包括利用一系列统计测试的基于约束的方法,以及围绕通过可能图空间中图的拟合度最大化的结构化方法。Vashishtha等人提出了两种结合LLMs和因果发现方法的算法:第一种使用LLMs的因果顺序来指导基于约束算法输出的无向边的方向,第二种利用LLMs的因果顺序作为基于分数算法的先验[92]。Ban等人将LLM驱动的因果语句作为定性祖先约束纳入贝叶斯网络结构中,以指导数据驱动算法[8],这有利于小规模问题,但由于LLM派生约束的不准确性,在大型数据集上遇到困难。然后他们提出了一个迭代框架,利用LLMs验证学习因果图中边的准确性,并基于LLM反馈微调因果发现过程[7]。

6. 未来方向

LLM推理能力的理论研究。因果推断方法为深入了解大型语言模型(LLM)的推理能力提供了一个有希望的途径。一个潜在的方法是利用治疗效果估计技术来评估它们在特定任务上的表现。治疗效果估计的金标准是在对照实验中比较不同治疗的潜在结果。然而,在现实世界场景中进行此类实验的实践挑战使得LLM的交互性质成为研究的理想候选者。

利用它们固有的交互性,研究人员可以探索准实验设置,利用响应中的自然变化来推断因果关系。承认解释LLM时相关的复杂性、训练数据中的潜在偏见以及语言理解任务的复杂性至关重要。此外,考虑使用因果推断方法研究LLM推理能力时的伦理含义,并在训练和评估数据中解决偏见问题,是必不可少的。

LLMs中的高效训练和推理。随着模型规模和训练数据的不断扩大,LLMs中的知识更新和推理过程变得越来越资源密集。因此,我们迫切需要设计能够高效且审慎地更新预训练模型知识库的方法。在这种情况下,因果推断方法可以通过提供量化效率的指导来发挥关键作用。通过建立感兴趣的方法和现有知识集合之间的因果关系,这些方法可以帮助评估不同更新策略的影响。这种方法不仅解决了知识更新相关的资源挑战,而且还有助于更细致地理解LLMs中不断发展的知识格局。

基于LLM的反事实估计和增强。作为通用专家,大型语言模型(LLM)可以显著地帮助克服当前因果推断方法的限制。正如假设 5.3 所示,许多因果方法的一个常见假设是每种治疗都有相应的数据点存在。然而,这种假设经常证明是不真实的,特别是在处理可能不支持有意义学习的不平衡少数数据时。作为多功能专家,LLMs有潜力通过帮助少数数据的数据增强来解决这一挑战。通过它们对语言和上下文的全面理解,LLMs可以增强多样化数据点的可用性,促进在传统方法可能因数据不平衡而挣扎的情况下进行更稳健和有效的因果推断。类似地,许多方法在潜在结果框架内运行,假设了无混杂性(假设 5.2),这是一个相当强的条件。历史上,由于缺乏关于潜在因果图或识别潜在混杂因素的领域知识,人们接受了这种假设。然而,随着大型语言模型(LLM)的出现,有机会缓解这一严格的限制。LLMs可以作为通用专家,提供有关潜在因果图和知识的宝贵信息。LLMs的这种变革性能力开辟了增强我们对因果关系理解的途径,解决了由于领域知识有限而做出无混杂性假设的历史挑战。

7. 结论

本质上,大型语言模型(LLM)就像一个庞大的知识库。一个持续的挑战是弄清楚如何有效地提取和使用这些知识。改进LLMs的关键在于增强它们理解因果关系——本质上是事物之间的联系。因果推理对于使LLMs更智能至关重要。从因果推断的角度来看,我们发现了一个有价值的框架,有助于提高LLMs的有效性。同时,作为人类知识的守护者,LLMs甚至可以帮助克服因果推断的限制,提供超越现有限制的广泛专业知识,重塑我们对这个重要领域的理解,并为这个领域带来新的活力。在本综述中,我们对大型语言模型(LLM)与因果推断相交的当前格局进行了彻底的检查。我们深入探讨了因果推断如何有助于LLM,增强了推理、公平性和安全性等方面,以及LLM的可解释性。此外,我们还探索了LLM如何反过来拓宽了因果推断的视野。在这些类别中,我们的综述提供了深入的讨论、比较和对所审查方法的简洁总结,提供了当前研究状态的全面概述。这些方法的可用基准数据集和开源代码也列出了。对当前因果推断和大型语言模型的进展的检查具有双重目的。首先,它增强了我们对这两个领域如何相互受益的理解。其次,它催化了新问题的出现,推动我们更接近实现人工智能。此外,这种探索有可能扩展到不同的领域,并在现实世界场景中找到应用,展示了因果推断和LLM之间协同作用的深远影响。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值