Large Language Models Are Latent Variable Models: Explaining and Finding Good Demonstrations - 论文翻译

论文链接:https://arxiv.org/pdf/2301.11916
项目地址:https://github.com/WANGXinyiLinda/concept-based-demonstration-selection

Abstract

近年来,预训练的大型语言模型 (LLMs) 在实现被称为上下文学习的推理时的少样本学习能力方面表现出显着的效率。然而,现有文献强调了这种能力对少镜头演示选择的敏感性。目前对这种能力的潜在机制的理解,即其能力来自常规的语言模型的预训练目标,仍然与现实世界的 LLMs 断开连接。本研究旨在通过一个贝叶斯透镜检查上下文学习现象,将现实世界的 LLMs 视为潜在变量模型。在此前提下,我们提出了一种用一个小 LM 从一组注释数据中选择最佳演示的算法,然后将选定的演示直接推广到更大的 LM。我们展示了比基线的显着改进,在八个真实世界的文本分类数据集上平均超过 8 个 GPT 模型。我们还展示了我们的算法在 GSM8K(数学单词问题数据集)上的实际有用性。我们的实证结果支持了我们的假设,即 LLM 隐含地推断出一个包含任务信息的潜在变量。

1 Introduction

基于 Transformer 的 [41] 预训练的大型语言模型 (LLMs) 在各种自然语言处理 (NLP) 任务中取得了显着的进步。随着这些 LLMs 的尺寸的增加,它们获得了“上下文学习”能力,也就是通过在推理时对少量的演示示例进行调整,模型实现了最先进的(SOTA)或接近SOTA性能,而不需要任何模型参数的更新[4]。以下是用于上下文学习语义分析的示例输入序列:

Great movie. Positive. n The worst movie ever. Negative. n Can’t wait to see the second movie! \text{Great movie. Positive.\\n The worst movie ever. Negative.\\n Can't wait to see the second movie!} Great movie. Positive.n The worst movie ever. Negative.n Can’t wait to see the second movie!

前两行是两个演示,第三行是一个测试输入。我们希望一个 LLM 将正确标签 Positive 作为一个后续进行输出。

上下文学习已被证明对广泛的 NLP 任务来说是一个有效的技术。然而,它对所使用的演示的选择、格式甚至顺序很敏感[29,20]。这使得通过上下文学习实现最佳性能成为一个重大挑战,需要真正的人力来调整演示示例的格式和选择。启发式的解决方案,例如根据演示和测试输入之间的相似性来选择演示[19,37]已经被提出,但对于,为什么某些演示是有效的而其他演示不是,的一个全面的理解仍然是难以捉摸的。此外,LLMs 在标准语言模型预训练目标下通过对自然语言文本进行训练来获得上下文学习能力的机制尚不完全清楚。最近关于理解上下文学习的工作提供了有价值的见解和理论结果 [5, 1, 42, 14, 12],但范围有限,他们专注于合成实验来验证他们的假设,而尚不清楚这些结果是否可以推广到在现实世界自然语言数据上预训练的 LLMs。Xie等人[50]引入了一个突出的结果,为上下文学习提供了一个潜在主题(概念)变量解释。他们表明,在假设预训练的数据分布和特定任务的数据分布都是隐马尔可夫模型 (HMM) 的情况下,当演示的个数接近无穷大时,上下文学习预测器接近贝叶斯最优预测器。然而,数据生成过程是隐马尔可夫模型的假设使得结果外推到自然语言是有问题的,并将经验验证限制在小型模型的合成数据上。

我们受到这项先前工作的启发,并引入了建立在现实假设之上的更通用和更自然的解释,从而产生了实用的演示选择算法。我们的解释受到一个主题模型的生成过程的启发,这个主题模型也就是一个简单的潜在变量模型:

P ( w 1 : T ) = ∫ Θ P ( w 1 : T ∣ θ ) P ( θ ) d θ P(\boldsymbol{w}_{1:T})=\int_{\Theta}P(\boldsymbol w_{1:T}\mid \boldsymbol \theta)P(\boldsymbol \theta)d\boldsymbol \theta P(w1:T)=ΘP(w1:Tθ)P(θ)dθ

这里 θ ∈ Θ \boldsymbol \theta \in \Theta θΘ 代表一个潜在的高维主题/概念变量, Θ \Theta Θ 是主题/概念变量的空间, w 1 : T \boldsymbol w_{1:T} w1:T 代表一段文本的 token 序列。请注意,这里的主题模型指的是现代神经主题模型[23,22]。另一方面,生成 LLMs 根据一般概率分解对文本数据进行建模:

P ( w 1 : T ) = ∏ i = 1 T P ( w i ∣ w i − 1 , . . . , w 1 ) P(\boldsymbol{w}_{1:T})=\prod_{i=1}^{T}P(\boldsymbol w_i \mid\boldsymbol w_{i-1},...,\boldsymbol w_1) P(w1:T)=i=1TP(wiwi1,...,w1)

而在实践中,LLMs 根据所有先前的标记生成新的标记,我们研究了 LLMs 是否可以对类似于主题模型的做出一个简化的假设:

P M ( w t + 1 : T ∣ w 1 : t ) = ∫ Θ P M ( w t + 1 : T ∣ θ ) P M ( θ ∣ w 1 : t ) d θ P_M(\boldsymbol w_{t+1:T}\mid \boldsymbol w_{1:t})=\int_{\Theta}P_M(\boldsymbol w_{t+1:T}\mid \boldsymbol \theta)P_M(\boldsymbol \theta \mid \boldsymbol w_{1:t})d\boldsymbol \theta PM(wt+1:Tw1:t)=ΘPM(wt+1:Tθ)PM(θw1:t)dθ

在这种情况下,生成的标记被假设是有条件地独立于先前的标记,给定潜在主题(概念)变量,该变量表现得像一个与提示 w 1 : t \boldsymbol w_{1:t} w1:t 相关的后验信息的近似统计量。对于上下文学习,这个概念变量包括格式和任务信息。通过以适当的潜在概念变量为条件,LLMs 将使用 P M ( w t + 1 : T ∣ θ ) P_M(\boldsymbol w_{t+1:T}\mid \boldsymbol \theta) PM(wt+1:Tθ) 生成想要的延续。由于 LLMs 没有明确学习一个潜在的变量分布,如 LDA 风格的主题模型[3],因此受Lester等人[17]启发,我们可以在一个经验贝叶斯公式下利用这个公式,来为一个想要的任务仅近似最优的潜在变量值,使用一个小的 LLM(小于1B参数),这在计算上是有效的。

我们通过选择最有可能推断出最佳潜在变量值(那些最高的后验概率 P M ( w t + 1 : T ∣ θ ) P_M(\boldsymbol w_{t+1:T}\mid \boldsymbol \theta) PM(wt+1:Tθ) 的示例)的示例(方程中的 w 1 : t \boldsymbol w_{1:t} w1:t)来实验性地验证我们的解释。然后,我们直接使用它们作为与其他更大的 LLMs(最多 175B 参数)进行上下文学习的演示,并观察到显着的性能提升。LLMs 之间演示的泛化很可能是类似的预训练数据分布的结果。

虽然我们的工作受到Xie等人[50]的启发,但我们的方法在理论分析和实验设置上都存在显着差异。我们的主要贡献如下:

  • 我们假设了一个通用的数据生成过程,由一个三变量的因果图指定,而不受分布函数或演示个数的限制。
  • 我们在这些现实的假设下证明了上下文学习预测器可以使用使用潜在的概念变量选择的有限数量的演示来达到贝叶斯最优预测器的效果。
  • 我们引入了一种高效的、实用的演示选择算法,基于我们的理论结果,它可以使用一个小的 LLM 来选择演示,然后直接将演示推广到其他 LLMs。我们的算法的有效性在文本分类任务和数学单词问题上使用真实世界的 LLMs 进行了实验性验证。

我们的目标是缩小理论理解和现实世界 LLMs 之间的差距。据我们所知,我们提出的上下文学习潜在变量解释是第一个在现实场景中产生有效算法的贝叶斯解释。

2 Theoretical Analysis

在上下文学习中,提示 w 1 : t \boldsymbol w_{1:t} w1:t 由几个演示和一个测试输入组成。生成的标记 w t + 1 : T \boldsymbol w_{t+1:T} wt+1:T 代表了模型对测试输入的预测。

2.1 Notations and Problem Setting

假设我们的任务的目标是在给定一个标记序列 X ∈ X X\in\mathcal{X} XX 的情况下,预测一个离散的目标变量 Y ∈ Y Y\in\mathcal{Y} YY ,其中 X \mathcal{X} X 是所有可能的标记序列的空间。 θ ∈ Θ \boldsymbol \theta \in \Theta θΘ 是一个可能的高维潜在变量,其中 Θ \Theta Θ 是变量的高维空间。与传统的主题模型不同, θ \boldsymbol \theta θ 不被假定为是离散的,而是在 Θ \Theta Θ 上连续分布的。为了定义数据生成过程,我们假设 X , Y X,Y X,Y θ \boldsymbol \theta θ 之间存在潜在的因果关系。我们研究了这种因果关系的两个可能的方向,也就是 X → Y ← θ X\to Y \gets \boldsymbol \theta XYθ Y → X ← θ Y\to X \gets \boldsymbol \theta YXθ,这可以被数学地表示为以下的结构方程:

Y = f ( X , θ , ϵ ) , X = g ( Y , θ , ϵ ) Y=f(X,\boldsymbol \theta,\epsilon),X=g(Y,\boldsymbol \theta,\epsilon) Y=f(X,θ,ϵ),X=g(Y,θ,ϵ)

这里 ϵ ∈ E \epsilon\in\mathcal{E} ϵE 是一个独立的噪声变量, f : X × Θ × E → Y f:\mathcal{X}\times\Theta\times\mathcal{E}\to\mathcal{Y} f:X×Θ×EY g : Y × Θ × E → X g:\mathcal{Y}\times\Theta\times\mathcal{E}\to\mathcal{X} g:Y×Θ×EX 是两个确定性函数。此外,我们用 X , Y , θ ∼ P X,Y,\boldsymbol \theta \sim P X,Y,θP 表示联合数据分布,并假设 Y Y Y 是从 Y \mathcal{Y} Y 上的均匀分布中采样的。这两种方向之间的区别至关重要,因为它允许我们利用其方向,该方向上子节点变量 ( Y Y Y X X X) 在给定父节点时是独立于其他变量的方向。

我们假设因果方向取决于任务的性质。例如,在预测一个电影评论 ( X X X) 的情绪 ( Y Y Y) 的任务中,可以合理地假设关于电影的观点是在撰写评论之前形成的,即 Y Y Y X X X 的原因,以及任务概念“写一篇文章来表达一个人对电影的看法”( θ \boldsymbol \theta θ)。相反,对于一个产品评论 ( X X X) 是否对其他客户 ( Y Y Y) 有帮助的任务,是评论 ( X X X) 的质量导致其他客户去点赞它 ( Y Y Y),以及“评级该评论的有用性”的任务概念( θ \boldsymbol \theta θ)。在本文的其余部分中,我们将重点关注 X → Y ← θ X\to Y \gets \boldsymbol \theta XYθ 方向,并在附录中对另一个方向进行详细讨论。

假设我们对一个由 d ∈ T d \in \mathcal{T} dT 表示的任务(例如语义分析认为u)感兴趣,其中 T \mathcal{T} T 是所有可能任务的空间。我们假设 T \mathcal{T} T Θ \Theta Θ 之间存在一个内射函数。即对于每个任务 d d d,都有一个概念变量 θ d \theta^d θd,使得从任务 d d d 中采样的每个数据点 ( X d , Y d X^d, Y^d Xd,Yd) 由以下公式产生:

Y d = f ( X d , θ d , ϵ ) Y^d=f(X^d,\theta^d,\epsilon) Yd=f(Xd,θd,ϵ)

为了使用一个 LLM(通常由模型标签 M M M 表示)执行上下文学习,我们以一组固定的 k k k 个从任务 d d d 中采样的演示示例 ( X 1 d , Y 1 d ) , ( X 2 d , Y 2 d ) , . . . , ( X k d , Y k d ) (X_1^d,Y_1^d),(X_2^d,Y_2^d),...,(X_k^d,Y_k^d) (X1d,Y1d),(X2d,Y2d),...,(Xkd,Ykd) 为条件。

继之前的工作[24,26]之后,由于我们没有使用任何指令微调模型,所以我们在提示中不包括任务描述,目的是专注于演示的检查。为了自然地将 Y \mathcal{Y} Y 投影到标记空间 X \mathcal{X} X 中,我们定义了单射映射 τ d : Y → X \tau^d:\mathcal{Y}\to\mathcal{X} τd:YX,通常被人类对任务 d d d 的理解来定义。例如,对于情感分析任务, τ d \tau^d τd 将正向类映射到标记“positive”,负向类映射到标记“negative”。此外,定义了一个分隔符标记 w d \boldsymbol w^d wd,通常是由一个空的空间或一个新行的标记来定义,以在拼接时分隔演示。我们将 LLM 对 X , Y X,Y X,Y θ \boldsymbol \theta θ 的输出概率,使用上述预处理,表示为 P M d P_M^d PMd

P M ( τ d ( Y ) ∣ X 1 d , τ d ( Y 1 d ) , w d , . . . , X k d , τ d ( Y k d ) , w d , X ) = P M d ( Y ∣ X 1 d , Y 1 d , . . . , X k d , Y k d , X ) P_M(\tau^d(Y)\mid X_1^d,\tau^d(Y^d_1),\boldsymbol w^d,...,X_k^d,\tau^d(Y_k^d),\boldsymbol w^d,X)=P_M^d(Y\mid X_1^d, Y_1^d,...,X_k^d,Y_k^d,X) PM(τd(Y)X1d,τd(Y1d),wd,...,Xkd,τd(Ykd),wd,X)=PMd(YX1d,Y1d,...,Xkd,Ykd,X)

2.2 Problem Analysis and Theoretical Results

假设可以从任务 d d d 中采样的一组观测数据,表示为 D d \mathcal{D}^d Dd,允许从中选择 k k k 个最合适的演示。对于任何传入的测试示例 X X X,我们有:

P M d ( Y ∣ X 1 d , Y 1 d , . . . , X k d , Y k d , X ) = ∫ Θ P M d ( Y ∣ θ , X ) P M d ( θ ∣ X 1 d , Y 1 d , . . . , X k d , Y k d , X ) d θ P_M^d(Y\mid X_1^d, Y_1^d,...,X_k^d,Y_k^d,X)=\int_\Theta P_M^d(Y\mid \boldsymbol \theta, X)P_M^d(\boldsymbol \theta\mid X_1^d, Y_1^d,...,X_k^d,Y_k^d,X)d\boldsymbol \theta PMd(YX1d,Y1d,...,Xkd,Ykd,X)=ΘPMd(Yθ,X)PMd(θX1d,Y1d,...,Xkd,Ykd,X)dθ

在这里,我们假设测试示例的采样是独立于演示的采样的,因此 给定 θ \boldsymbol \theta θ X X X 后, Y Y Y 独立于选择的演示。我们还假设预训练的数据分布 P M d P_M^d PMd 是一个对于假设的数据分布 P P P 的合适近似值:

Assumption 2.1. Assume that P M ( X ) = P ( X ) P_M(X)=P(X) PM(X)=P(X) , and P M d ( Y ∣ θ , X ) ∝ P ( Y ∣ θ , X ) P_M^d(Y\mid\boldsymbol \theta, X)\propto P(Y\mid\boldsymbol \theta, X) PMd(Yθ,X)P(Yθ,X) for $ X\to Y \gets \boldsymbol \theta$

请注意,大型语言模型捕获语言真实分布的假设在研究 LLM 的文献中很常见 [50, 34, 47]。有了这个假设,我们建立了:

Proposition 2.2 如果任务 d d d 遵从 X → Y ← θ X\to Y\gets\boldsymbol \theta XYθ 的方向,那么 arg ⁡ max ⁡ y ∈ Y P M d ( Y = y ∣ θ d , X ) \arg\max_{y\in\mathcal{Y}}P_M^d(Y=y\mid\theta^d,X) argmaxyYPMd(Y=yθd,X) 是贝叶斯最优分类器,即对每个样本 X X X,选择能使后验概率 P M d ( Y = y ∣ θ d , X ) P_M^d(Y=y\mid\theta^d,X) PMd(Y=yθd,X) 最大的类别标记。

在这种情况下,只有当 P M d ( θ ∣ X 1 d , Y 1 d , . . . , X k d , Y k d , X ) P_M^d(\boldsymbol \theta\mid X_1^d, Y_1^d,...,X_k^d,Y_k^d,X) PMd(θX1d,Y1d,...,Xkd,Ykd,X) 完全取决于 θ d \theta^d θd 时,上下文学习分类器才是贝叶斯最优分类器

Theorem 2.3 如果任务 d d d 遵从 X → Y ← θ X\to Y\gets\boldsymbol \theta XYθ 的方向,那么上下文学习分类器 arg ⁡ max ⁡ y ∈ Y P M d ( Y = y ∣ X 1 d , Y 1 d , . . . , X k d , Y k d , X ) \underset{y\in\mathcal{Y}}{\arg\max}P_M^d(Y=y\mid X_1^d, Y_1^d,...,X_k^d,Y_k^d,X) yYargmaxPMd(Y=yX1d,Y1d,...,Xkd,Ykd,X) 总是有一个更高的或相同的错误分类概率,相比于贝叶斯最优分类器 arg ⁡ max ⁡ y ∈ Y P M d ( Y = y ∣ θ d , X ) \arg\max_{y\in\mathcal{Y}}P_M^d(Y=y\mid\theta^d,X) argmaxyYPMd(Y=yθd,X) 。概率相同发生在

∀ x ∈ X , P M d ( θ d ∣ X 1 d , Y 1 d , . . . , X k d , Y k d , X = x ) = 1 \forall x\in \mathcal{X}, P_M^d(\theta^d\mid X_1^d, Y_1^d,...,X_k^d,Y_k^d,X=x)=1 xX,PMd(θdX1d,Y1d,...,Xkd,Ykd,X=x)=1

Y → X ← θ Y\to X\gets\boldsymbol \theta YXθ 方向也可以做类似的分析,其中 P M d ( X ∣ X 1 d , Y 1 d , . . . , X k d , Y k d , Y ) = ∫ Θ P M d ( X ∣ θ , Y ) P M d ( θ ∣ X 1 d , Y 1 d , . . . , X k d , Y k d , Y ) d θ P_M^d(X\mid X_1^d, Y_1^d,...,X_k^d,Y_k^d,Y)=\int_\Theta P_M^d(X\mid \boldsymbol \theta, Y)P_M^d(\boldsymbol \theta\mid X_1^d, Y_1^d,...,X_k^d,Y_k^d,Y)d\boldsymbol \theta PMd(XX1d,Y1d,...,Xkd,Ykd,Y)=ΘPMd(Xθ,Y)PMd(θX1d,Y1d,...,Xkd,Ykd,Y)dθ

请注意,等式 (1) 和等式 (2) 的左侧类似于 Min 等人介绍的直接和通道方法。 [24]。然而,我们的分析与他们的不同,因为我们不将 ( Y → X ← θ Y\to X\gets\boldsymbol \theta YXθ) 视为用于上下文学习建模的通用更好的通道方向,而是认为应该根据最终任务,因果方向 ( X → Y ← θ X\to Y\gets\boldsymbol \theta XYθ) 有时会更好。这一观点得到了附录 B 中的实证结果的支持。

3 Method

在这里,我们演示了如何将所提出的理论实际应用于去选择最佳的演示示例。由于潜在变量 θ \boldsymbol\theta θ 对任务和格式信息都进行了编码,因此 Θ \Theta Θ 上的整个分布是过于复杂的而无法建模。与传统的主题模型不同,我们将只关注于估计一个对任务 d d d 最优的 θ d \theta^d θd 值。

首先,我们执行潜在概念学习,其中任务潜在变量 θ d \theta^d θd 被学习为一组新令牌嵌入,通过用对整个演示候选集进行提示调优。有了这个最佳任务潜在变量,我们接着执行演示的选择,其中一个更小的演示被选择,来最大化潜在概念令牌的后续的似然。我们只需要使用一个小的 LLM 来做上述步骤,以获得一组最优演示,它可以直接转移到其他 LLMs。图 1 是我们提出的方法的总体说明。

3.1 Latent Concept Learning

我们首先想找到对应于任务 d ∈ T d \in \mathcal{T} dT 的潜在概念变量 θ d \theta^d θd 的最优值。由于基于命题2.2, arg ⁡ max ⁡ y ∈ Y P M d ( Y = y ∣ θ d , X ) \arg\max_{y\in\mathcal{Y}}P_M^d(Y=y\mid\theta^d,X) argmaxyYPMd(Y=yθd,X) 是贝叶斯最优分类器, θ d \theta^d θd 应该能够最小化 X → Y ← θ X\to Y\gets\boldsymbol \theta XYθ 方向的 − E X , Y , d [ log ⁡ P M d ( Y ∣ θ d , X ) ] -\mathbb{E}_{X,Y,d}[\log P_M^d(Y\mid\theta^d,X)] EX,Y,d[logPMd(Yθd,X)] 。在实践中,我们尝试通过在词汇表中添加新令牌来将 θ d \theta^d θd 对齐到令牌嵌入空间。在对齐之后,我们希望能够使用学到的 θ d \theta^d θd 新令牌作为常规令牌。

更具体地说,基于 Lester 等人提出的方法 [17],对于每个特定任务 d d d,将 c c c 个新概念标记(表示为 θ ^ d \hat{\theta}^d θ^d)添加到 LLM M M M 的原始词汇表中,来表示相应的任务概念 θ d \theta^d θd。随后,这些新令牌的嵌入 E n e w ( θ ^ d ) E_{new}(\hat{\theta}^d) Enew(θ^d) 被微调,同时冻结 LLM M M M 的其余参数。变量 c c c 被视为一个超参数。在实践中,为了能以 θ d \theta^d θd 为条件,相应的 c c c 个概念令牌被附加到输入 X X X(或 Y Y Y )种,如下所示的示例,其中 c = 2 c = 2 c=2

<sentiment_token_1><sentiment_token_2> Can’t wait to see the second movie! \text{<sentiment\_token\_1><sentiment\_token\_2> Can't wait to see the second movie!} <sentiment_token_1><sentiment_token_2> Can’t wait to see the second movie!

通过给出上述输入令牌,我们要求 LLM 为我们预测正确的标签 Positive。注意到这里的 <sentiment_token_1> \text{<sentiment\_token\_1>} <sentiment_token_1> 只是一个分配给新添加的概念令牌的标签。它可以是任意词,只要不与 LLM 的原始词汇表重合。

微调的目标是最小化 L ( θ ^ d ) = E X , Y [ ℓ ( X , Y ; θ ^ d ) ] \mathcal{L}(\hat{\theta}^d)=\mathbb{E}_{X,Y}[\ell(X,Y;\hat{\theta}^d)] L(θ^d)=EX,Y[(X,Y;θ^d)],其中

ℓ ( X , Y ; θ ^ d ) = { − log ⁡ P M d ( Y ∣ θ ^ d , X )  if  X → Y ← θ − log ⁡ P M d ( X ∣ θ ^ d , Y )  if  Y → X ← θ \ell(X,Y;\hat{\theta}^d)=\begin{cases} -\log P_M^d (Y\mid \hat{\theta}^d,X)& \text{ if } X\to Y\gets\boldsymbol \theta \\ -\log P_M^d (X\mid \hat{\theta}^d,Y)& \text{ if } Y\to X\gets\boldsymbol \theta \end{cases} (X,Y;θ^d)={logPMd(Yθ^d,X)logPMd(Xθ^d,Y) if XYθ if YXθ

理论上,如果我们能最小化上述损失函数,可以得到一个贝叶斯最优分类器,概念令牌将是一个真实的潜在概念变量的合理代表:

Proposition 3.1 L ( θ ^ d ) \mathcal{L}(\hat{\theta}^d) L(θ^d) 被最小化, X → Y ← θ X\to Y\gets\boldsymbol \theta XYθ 方向的 P M d ( Y ∣ θ ^ d , X ) = P ( Y ∣ θ d , X ) P_M^d (Y\mid \hat{\theta}^d,X)=P (Y\mid \theta^d,X) PMd(Yθ^d,X)=P(Yθd,X)。如果 LLM M M M 是可逆的,那么 θ ^ d = θ d \hat{\theta}^d=\theta^d θ^d=θd

我们用 M ′ M' M 来表示经过概念令牌微调的 LLM M M M。由于我们将概念标记添加到了常规标记词汇表中,因此原始的 LLM 输出概率 P M ′ ( θ ^ d ∣ w 1 : t ) P_{M'}(\hat{\theta}^d\mid \boldsymbol w_{1:t}) PM(θ^dw1:t) ( w 1 : t \boldsymbol w_{1:t} w1:t 表示给定的提示) 将位于令牌序列空间 X \mathcal{X} X 中,而不是概念空间 Θ \Theta Θ 中。由于不可能学习到所有可能的 θ d ∈ Θ \theta^d\in\Theta θdΘ,我们提出通过对任务 S ⊆ T \mathcal{S}\subseteq \mathcal{T} ST 的不同子集进行采样来近似概念空间 Θ \Theta Θ。那么 θ d \theta^d θd 的估计条件概率将是:

P ^ M ′ d ( θ ^ d ∣ w 1 : t ) = P M ′ d ( θ ^ d ∣ w 1 : t ) ∑ s ∈ S P M ′ t ( θ ^ s ∣ w 1 : t ) \hat P_{M'}^d(\hat \theta^d \mid \boldsymbol w_{1:t})=\frac{P_{M'}^d(\hat \theta^d \mid \boldsymbol w_{1:t})}{\sum_{s\in\mathcal S}P_{M'}^t(\hat \theta^s \mid \boldsymbol w_{1:t})} P^Md(θ^dw1:t)=sSPMt(θ^sw1:t)PMd(θ^dw1:t)

为了获取到 S \mathcal S S 中所有任务的概念令牌,我们用损失 ∑ d ∈ S L ( θ d ) \sum_{d\in\mathcal S} \mathcal L(\theta^d) dSL(θd) 一起微调了所有的任务。我们在算法 1 中总结了提出的算法。

请注意,一个生成 LLM 的嵌入矩阵在输入端和输出端共享。因此,虽然我们只在训练时看到输入端的概念标记,但它们可以被视为可以在输出端生成的常规单词标记。

3.2 Demonstration Selection

根据定理 2.3,对于任务 d d d,为了使上下文学习分类器更接近贝叶斯最优分类器,我们需要选择演示 ( X 1 d , Y 1 d ) , ( X 2 d , Y 2 d ) , . . . , ( X k d , Y k d ) (X_1^d,Y_1^d),(X_2^d,Y_2^d),...,(X_k^d,Y_k^d) (X1d,Y1d),(X2d,Y2d),...,(Xkd,Ykd) 来最大化 P M d ( θ d ∣ X 1 d , Y 1 d , . . . , X k d , Y k d , X ) P_M^d( \theta^d\mid X_1^d, Y_1^d,...,X_k^d,Y_k^d,X) PMd(θdX1d,Y1d,...,Xkd,Ykd,X) ,对于所有 X ∈ X X\in \mathcal X XX。然后,我们的目标就变成了选择平均能最好地推断所有测试输入的任务概念的演示:

arg ⁡ max ⁡ X 1 d , Y 1 d , . . . , X k d , Y k d E X [ P M d ( θ d ∣ X 1 d , Y 1 d , . . . , X k d , Y k d , X ) ] \underset{X_1^d, Y_1^d,...,X_k^d,Y_k^d}{\arg\max} \mathbb{E}_X[P_M^d( \theta^d\mid X_1^d, Y_1^d,...,X_k^d,Y_k^d,X)] X1d,Y1d,...,Xkd,YkdargmaxEX[PMd(θdX1d,Y1d,...,Xkd,Ykd,X)]

由于测试示例独立于演示进行采样,并且根据假设 2.1 P M ( X ) = P ( X ) P_M(X)=P(X) PM(X)=P(X),我们有

P M d ( θ d ∣ X 1 d , Y 1 d , . . . , X k d , Y k d , X ) = ∏ i = 1 k P M d ( θ d ∣ X i d , Y i d ) P M d ( θ d ) k − 1 P_M^d( \theta^d\mid X_1^d, Y_1^d,...,X_k^d,Y_k^d,X)=\frac{\prod_{i=1}^k P_M^d (\theta^d\mid X_i^d,Y_i^d)}{P_M^d(\theta^d)^{k-1}} PMd(θdX1d,Y1d,...,Xkd,Ykd,X)=PMd(θd)k1i=1kPMd(θdXid,Yid)

假设 θ θ θ 具有一个统一的先验,那么我们的目标就变成了找到最大化 P ^ M ′ d ( θ ^ d ∣ X i d , Y i d ) \hat P_{M'}^d (\hat\theta^d\mid X_i^d,Y_i^d) P^Md(θ^dXid,Yid) 的前 k k k 个演示。请注意,演示之间的独立性是一个简化的假设,为了减少 ( X 1 d , Y 1 d ) , ( X 2 d , Y 2 d ) , . . . , ( X k d , Y k d ) (X_1^d,Y_1^d),(X_2^d,Y_2^d),...,(X_k^d,Y_k^d) (X1d,Y1d),(X2d,Y2d),...,(Xkd,Ykd) 的组合搜索空间。在实践中,选定的演示可能与一些演示可能协同工作良好,但不一定自己能运行良好。然而,在候选集 D d \mathcal D^d Dd 上搜索 O ( ∣ D d ∣ k ) \mathcal O(|\mathcal D^d|^k) O(Ddk) 个组合的成本太高了。在实践中,这种简化工作得相当好。我们将此组合搜索问题留给未来的研究。

此外,由于我们使用 LLM 来近似数据分布,演示的顺序可能很重要。我们将在实验部分展示顺序无关紧要,因此不需要重新排序所选演示。完整的选择算法如算法 2 所示。

4 Experiments

Datasets 我们对五种不同类型的 NLP 分类任务的八个数据集进行了实验:情感分析、语言分析、主题分类、情感分类和仇恨言论检测。对于情感分析,我们从 GLUE 基准 [43] 中选择斯坦福情感树库 (SST2) 数据集 [35],以及金融短语库 (FPB) 数据集 [21] 。SST2 是基于标记为“正面”或“负面”的电影评论构建的,FPB 基于标记为“正面”、“负面”或“中性”的财经新闻。对于语言分析,我们根据从语言书籍收集的句子,从 GLUE 基准测试中选择语言可接受性语料库 (COLA) 数据集 [46],标记为“可接受”或“不可接受的”。对于主题分类,我们根据 DBpedia 2014 [16] 选择 DBpedia 本体分类数据集 [52],用 14 个不同的本体类标记。对于情感分类,我们从Chatterjee等人[6]和Saravia等人[33]中选择数据集,这两个数据集都是从Twitter收集的。Chatterjee等人(EmoC)给定一个三轮上下文对话来预测情绪,而 Saravia 等人。 [33] 在给定一个具有明确情绪的 Twitter 消息的情况下预测情绪。对于仇恨言论检测,我们选择从在线社交媒体平台收集的在线仇恨言论检测数据集 (ETHOS) [27]。在这里,我们检测两种类型的仇恨言论:性取向 (ETHOS-SO) 和宗教 (ETHOS-R)。虽然在第 2 节中,我们假设所有任务共享相同的标签空间 Y \mathcal Y Y,但在这里我们放松了这样的假设,允许不同任务有的不同数量的标签。我们使用最小格式来处理每个示例。数据集和我们的数据处理过程的详细描述可以在附录 B 中找到。

Experiment settings 为了确定每个任务的因果方向,我们选择使用随机演示时可以提供更高的准确性的方向。我们采用 Y → X ← θ Y\to X\gets\boldsymbol \theta YXθ 方向进行情感分析、主题分类和情感分类任务,这与人们在编写一段文本之前通常有一些情感、主题或情绪的直觉是一致的。我们采用 X → Y ← θ X\to Y\gets\boldsymbol \theta XYθ 方向进行语言分析和仇恨言论检测类型。虽然这不太直观,但我们可以理解这一点,因为与之前的任务相比,语言错误和仇恨言论检测更是一项事后任务。

如果没有特别说明,我们在实验中使用 k = 4 k = 4 k=4 个演示个数,以及每个数据集 c = 10 c = 10 c=10 个概念标记数,由于 GPT2 的上下文长度为 1024,大量演示可能无法完全适合它。我们使用 GPT2-large 来学习概念标记,然后计算每个候选演示示例的概率。我们从训练集中随机选择了 100 个示例子集,我们选择其作为演示候选集 D d \mathcal D^d Dd。我们对所有其他 LLM 同样使用 GPT2-large 选择的相同演示集。我们使用从测试集中随机抽取最多 1000 个示例来测试所选演示的性能。每个实验使用不同的随机种子重复五次运行(随机性来自候选集的采样和测试集的采样)。我们采用Min等人[25]中的很大一部分代码,它基于Huggingface[49]。

Baselines 我们考虑一下的基线:

  • Uniform:我们统一从 D \mathcal D D 为每个测试示例选择 k k k 个演示。
  • Similar:根据Liu等人[19]的说法,在语义上与测试示例相似的演示将更加高性能。按照他们的方法,我们使用一个预训练的句子 Transformer [31] 来计算演示和测试示例之间的余弦相似度。我们为每个测试示例从 D 中选择前 k 个类似的演示。

Main results 图 2 显示了我们在所有八个数据集上平均的主要结果,使用第一代 GPT2 和 GPT3,没有任何指令微调 [28] 或来自人类反馈 (RLHF) [36] 的强化学习。我们的方法在八个不同的 LLM 上显着优于基线,平均比统一选择的基线提高了 12.5%,这表明了我们方法的有效性。我们的方法选择的演示完全基于 GPT2-large,而同一组演示可以推广到所有其他 GPT。

Results with non-GPT models 在图 3a 中,我们使用 GPT2-large 在更多大小相似(6-7B)的 LLMs(GPT3 [4]、GPT3-intstruct [28, 36]、GPT-J [44]、OPT [51] 和 LLAMA [38])上测试我们的方法选择的演示,并表明所选演示提高了所有这些演示的上下文学习性能。GPT3-curie 获得了最大性能改进的事实可能是因为类似的预训练数据分布有助于选择的演示的泛化。不同大小的 GPT2 模型共享了相同的预训练语料库 [30],而 GPT3 在从 GPT2 预训练语料库 [4] 扩展的数据集上进行了预训练。因此,可以假设 GPT3-curie 和 GPT2-large 的预训练分布是相似的。

Results on GSM8K 由于我们的主要目标是将理论与现实世界的模型和数据集联系起来,我们没有尝试在图 2 的主要结果中包含更难的任务。在实践中,我们提出的方法对于难任务最有效,即使是使用较小模型的参数高效的微调也不能表现得优于具有相同或更大模型的上下文学习。为了展示我们提出的算法的有用性,我们添加了一个新数据集 GSM8K [9],这是一个具有思维链解决方案的数学单词问题解决数据集。表 1 显示了贪婪生成的最终数值答案的测试准确度。我们随机选择一个包含 200 个示例的测试集,而不是使用完整的测试集来提高计算效率。

如表 1 的第一行所示,使用十个新标记的提示调优只能在 GSM8K 测试集上获得不到 4% 的准确率。最后四行显示了不同大小的 Llama 2 模型 [39] 和 ChatGPT 的上下文学习结果。我们提出的演示选择方法(最后两列)明显优于 Uniform 和 Similar 的基线方法。我们还发现,使用更大模型 (7B) 选择的演示比使用较小模型 (1.5B) 选择的演示更有效。结果表明,我们的演示选择方法在低数据设置下是一个很好的选择,有一个小的计算预算和最小的推理延迟。我们提出的方法也可能与其他提示技术[8]相结合,以进一步提高性能。

Learned tokens v.s. Random tokens 为了确认潜在概念变量在所提出的演示选择算法中的关键作用,我们比较了使用学习到的概念标记与图 3b 中原始词汇表中随机选择的标记的性能。随机标记选择的演示仅获得与随机选择的演示相同的性能,表明我们方法的性能增益来自包含任务和格式信息的学习概念标记,而不是我们算法的其他元素。

k k k ablation study 虽然我们在所有实验中使用 k = 4 k = 4 k=4 个演示,但我们也使用不同的 k k k 测试了我们方法的有效性。如图 4a 所示,我们的方法显着优于 $k = $ 2、4、8 和 16 的随机选择基线。为了适应大的 k k k,我们使用具有较长上下文长度 (2048) 的 GPT3-ada。请注意,对于现实世界的任务,通常情况并非如此,更多的演示保证了更高的性能[7]。我们可以看到,统一的基线性能从 k = 2 k = 2 k=2 增加到 k = 8 k = 8 k=8,然后在 k = 16 k = 16 k=16 时略有下降。我们的方法对所有 k k k 的 uniform 基线性能提高了大约绝对的 5%,而 k = 4 k = 4 k=4 改进了最多 (6.6%)。当 k k k 变大时,我们的方法似乎具有递减的效果,这可能是因为更多的演示的影响盖过了演示选择的影响。

c c c ablation study 虽然我们在所有实验中使用 c = 10 c = 10 c=10 个概念标记,但我们还研究了我们的方法用不同 c c c 的效果。当 c c c 很小 ( c = 5 c = 5 c=5) 时,概念标记不能有效地捕获任务和格式信息,因此无法提高性能。当 c c c 从 10 增加到 20 时,我们观察到性能下降。这可能是因为当 c c c 增加时,概念标记的选择性会降低。概念标记序列越长,它越有可能包含对演示选择没有贡献的无意义的标记。

Effect of demonstrations’ order 我们发现我们的方法选择的演示在大多数情况下对其顺序不敏感。一个例外是 EmoC 数据集,我们的方法具有很高的方差。相反,Lu等人[20]发现演示的顺序很重要,一个好的顺序不能在不同的 LLMs 之间转移。我们怀疑只有当演示选择方法不鲁棒时,排序才很重要。由于Lu等人[20]为整个测试集随机选择一组演示,不同演示的性能差异很高,因此排序很重要。由于这种排序是不可转移的,而我们选择的演示是高度可转移的,我们怀疑核心任务信息存储在演示的内容中,而排序主要捕获特定于模型的工件。

Qualitative analysis 在图 5 中,我们提供了一个学习到的概念令牌嵌入的 t-SNE [40] 投影。语义相似任务对应的标记彼此接近。请注意,此结果仅旨在提供一个概念标记的直接说明。概念标记的效果应该由先前的定量结果来理解。

我们还在附录 B 中列出了表 14 中前 4 个选定的演示。与得分较低的示例相比,GSM8K 的选定示例具有更多的演绎推理(即连接词“so”、“then”、“thus”等),而不是列出并行条件。对于 SST2,所选示例更长且更复杂,有时包括“but”。这可以理解为这些更难的示例可以更全面地表示任务。这一结论也与 [13] 中的发现一致,即预训练数据中的难示例有助于上下文学习最多。所选演示的标签分布通常在类中平衡,这减少了演示引入的可能偏差。

5 Related Work

启发式解决方案,例如根据演示和测试输入之间的相似性选择演示[19,37,32]。[20] 提出根据预测标签的熵来对演示进行重新排序。在本文中,我们使用基于相似度的选择方法作为一个基线方法,而不包含基于标签熵的重排序方法,因为我们表明演示的顺序对于我们的方法并不重要。

先前关于 Transformer 中上下文学习现象的研究已经确定了许多可能导致这种能力出现的预训练数据分布,包括隐马尔可夫模型分布 [50] 和具有高突发性的倾斜 Zipfian 分布 [5]。其他研究试图通过与梯度下降连接来理解上下文学习的潜在机制[42,10,1],将其形式化为算法学习问题[18],或者提出一个类似于我们的潜在变量理论[14,12,50]。虽然为上下文学习的工作原理提供了有价值的见解,但这些工作仅限于合成的数据集和小型 Transformer,尚不清楚这些结果是否可以推广到在现实世界文本数据上预训练的 LLMs,以及这些结果是否可以帮助上下文学习性能。相比之下,我们对上下文学习的贝叶斯解释,可以通过各种 NLP 数据集上的真实世界 LLMs 进行验证。Dai等人 [10] 提供了一种实用的算法,基于 Transformer 具有双重梯度下降形式的理解。然而,他们的实证结果规模较小,有六个数据集和一个模型(350M),并且改进不太显着(相对于基线提高了 5.4%)。

也有作品试图从一个经验的角度来理解上下文学习[2,24]。Min等人[26]发现演示的基本事实标签对于上下文学习并不重要,我们在附录B中发现这并不完全准确。另一方面,思维链提示[48,53,45]发现提供逐步解释可以提高上下文学习性能。

6 Conclusion

在这项工作中,我们试图通过一个贝叶斯透镜来理解大型语言模型 (LLMs),并将它们假定为隐式主题模型,其从提示中推断出潜在的概念变量。受这种理解的启发,我们提出了一种两步的算法,该算法首先从一个小的 LLM 中提取潜在的概念标记,然后选择预测概率最大的演示来预测相应的概念标记。然后,选定的演示可以直接推广到其他 LLM。我们的算法在各种文本分类数据集和 GPT 模型中的功效验证了我们的上下文学习的解释。

  • 24
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值