潜在因果探测:用因果模型揭示语言模型的内部机制-CSDN博客

本文链接：https://blog.csdn.net/weixin_36829761/article/details/140598831

在人工智能和自然语言处理领域掀起革命的大型语言模型,究竟学到了什么?它们是否真正理解了语言的潜在概念和因果关系?这些问题一直困扰着研究人员。最近,麻省理工学院计算机科学与人工智能实验室的Charles Jin提出了一种新颖的方法来探索这些问题,为我们打开了一扇窗户,让我们得以窥见语言模型内部的运作机制。

潜在因果探测:用因果模型揭示语言模型的内部机制

近年来,像GPT-3这样的大型语言模型在各种自然语言处理任务中取得了惊人的成绩。然而,这些模型究竟是如何工作的,它们到底学到了什么,仍然是一个谜。为了揭开这个谜题,研究人员开发了一种叫做"探测分类器"的技术。这种技术通过训练小型分类器来从预训练语言模型的表征中提取某些语言特征,从而推断模型是否学习了这些特征。

虽然探测技术被广泛使用,但其设计和分析仍面临着诸多挑战。首先,由于探测分类器本身是直接针对辅助任务进行监督训练的,观察到的结果可能不仅取决于语言模型本身编码的信息,还取决于探测器提取信息的能力。其次,探测分类器的选择和训练过程也会影响实验结果。最后,随着大型语言模型展现出越来越"智能"的行为,我们需要设计新的辅助任务来探索模型在世界知识和心智理论等方面的能力。

为了应对这些挑战,Charles Jin提出了一个基于结构因果模型(SCM)的形式化框架,称为"潜在因果探测"。这个框架的核心思想是:给定一个解释训练数据分布的因果模型,我们可以将主要假设框定为语言模型是否学会了表征SCM的潜在变量 - 这些变量解释了文本是如何生成的,但在训练过程中从未被直接观察到。

结构因果模型:揭示文本背后的因果关系

结构因果模型是一种用有向图来表示数据生成过程中因果关系的图形模型。以天气对员工带伞行为的影响为例,我们可以假设一个包含天气、天气预报、是否迟到以及是否带伞这几个变量的SCM。在这个模型中,天气和迟到是外生变量,其原因不在模型解释范围内。而天气预报是一个中介变量,部分传递了天气对带伞行为的因果效应。

Jin将SCM的思想应用到了一个合成的网格世界导航任务中。在这个任务中,程序由5种动作(移动、右转、左转、放置标记、拾取标记)组成,初始状态和最终状态是8x8的网格。执行程序会使单个机器人从初始状态导航到最终状态。Jin构建了一个SCM来描述这个数据生成过程,其中外生变量是初始状态和程序动作,潜在变量是中间状态,观察变量是初始状态、最终状态和程序。

这个SCM为我们提供了一个清晰的框架来建模文本分布。例如,知道机器人在倒数第二个状态离最终状态只有一格,可以帮助学习者预测最后一个动作是"移动"。更一般地说,给定根据某种未知因果机制生成的观察结果,学习者可以提出各种与观察一致的SCM候选模型,然后使用这些SCM来指导未来的预测。

潜在因果探测:检验语言模型是否学习了潜在概念

基于SCM的框架,Jin提出了"潜在因果探测"方法,用于实证检验"语言模型是潜在因果概念学习者"这一假设。其核心思想是:给定一个将训练数据建模为观察变量的SCM,我们可以探测语言模型是否学习了SCM中的潜在变量的表征。

具体来说,给定一个结构因果模型M和感兴趣的潜在变量vM,我们可以为每个文本样本x定义vM(x)为x在M中对应的潜在变量值。然后,我们可以构建一个辅助数据集,其输入特征是语言模型LM对x的表征LM(x;θ),标签是vM(x)。将这个数据集分为校准集和测量集,在校准集上训练探测器,在测量集上评估准确率。

Jin进一步区分了"约束"和"自由"的潜在变量结果。约束结果是指给定训练数据和假设类M,潜在变量的值是唯一确定的。而自由结果则是存在多个SCM可以同样好地解释观察数据,但给出不同的潜在变量值。基于这种区分,Jin提出了四种不同的探测设置,分别对应于测量语言模型表征中的演绎知识、归纳偏置、演绎偏置和归纳知识。