A Survey for In-context Learning-CSDN博客

本文链接：https://blog.csdn.net/m0_37531129/article/details/132273367

A Survey for In-context Learning

摘要：

随着大语言模型(LLMs)能力的增长，上下文学习(ICL)已经成为一个NLP新的范式，因为LLMs仅基于几个训练样本让内容本身增强。现在已经成为一个新的趋势去探索ICL来评价和extrapolate LLMs的能力。在这篇文章中，我们目的是调查并总结ICL的过程，挑战和未来的工作。我们首先呈现了一个ICL正式的定义和阐明了它和相关研究的关系。然后，我们组织并讨论了关于ICL先进的技术，包括训练策略，提示策略等等。最后，我们展示了ICL的挑战和提供了未来研究的潜在方向。我们希望我们的工作在未来可以鼓励更多的研究在发掘ICL是如何工作和提升ICL性能上。

1. 引言

随着模型规模和语料库规模的缩放(Devlin等人，2019;Radford等人，2019;布朗等人，2020年;Chowdhery et al.， 2022)，大型语言模型(LLMs)展示了一种上下文内学习(ICL)能力，即从上下文中的几个例子中学习。许多研究表明，llm可以通过ICL执行一系列复杂的任务，例如解决数学推理问题(Wei et al.， 2022c)。这些强大的能力已被广泛验证为大型语言模型的新兴能力(Wei et al.， 2022b)。
在这里插入图片描述

上下文学习的关键思想是从类比中学习。图 1 给出了一个例子，描述了语言模型如何使用 ICL 做出决策。首先，ICL 需要几个例子来形成演示上下文。这些示例通常以自然语言模板编写。然后，ICL 将查询问题和一段演示上下文连接在一起形成一个提示，然后将其输入语言模型进行预测。与需要使用后向梯度更新模型参数的训练阶段的监督学习不同，ICL 不进行参数更新，直接对预训练的语言模型进行预测。期望该模型能够学习隐藏在演示中的模式，并据此做出正确的预测。
作为一种新的范式，ICL 具有多种吸引人的优势。首先，由于演示是用自然语言编写的，因此它提供了一个可解释的界面来与 LLM 进行通信（Brown 等人，2018 年）。这种范式通过改变演示和模板将人类知识融入 LLM 变得更加容易（Liu et al., 2022; Lu et al., 2022; Wu et al., 2022; Wei et al., 2022c）。其次，上下文内学习类似于人类通过学习类比的决策过程（Winston，1980）。第三，与监督训练相比，ICL 是一个无训练学习框架。这不仅可以大大降低使模型适应新任务的计算成本，还可以使语言模型作为服务（Sun et al., 2022）成为可能，并且可以很容易地应用于大规模的现实世界任务。
尽管ICL很有前途，但也有一些有趣的问题和有趣的性质需要进一步研究。虽然普通GPT-3模型本身显示出有希望的ICL能力，但一些研究发现，通过预训练期间的适应，这种能力可以显著提高(Min等人，2022b;Chen et al.， 2022c)。此外，ICL的性能对特定设置很敏感，包括提示模板、上下文示例的选择、示例的顺序等(Zhao et al.， 2021)。此外，ICL的工作机制虽然直观合理，但尚不清楚，很少有研究提供初步解释(Dai et al.， 2022;von Oswald et al.， 2022)。
随着ICL研究的快速增长，我们的调查旨在提高社区对当前进展的认识。具体而言，我们提供了一份详细的论文调查和一份将不断更新的论文列表，并对ICL的相关研究进行了深入讨论。我们强调了挑战和潜在的方向，并希望我们的工作可以为对这一领域感兴趣的初学者提供一个有用的路线图，并为未来的研究提供帮助。

2. Overview

ICL的强大性能依赖于两个阶段：（1）培养LLM的ICL能力的训练阶段，以及（2）LLM根据任务特定演示进行预测的推理阶段。就训练阶段而言，LLM直接针对语言建模目标进行训练，例如从左到右生成。尽管这些模型没有专门针对上下文学习进行优化，但它们仍然表现出ICL的能力。现有的ICL研究基本上是以训练有素的LLM为骨干，因此本次调查不会涵盖预训练语言模型的细节。在推理阶段，由于输入和输出标签都用可解释的自然语言模板表示，因此有多个方向可以提高ICL的性能。本文将进行详细的描述和比较，例如选择合适的示例进行演示，并为不同的任务设计具体的评分方法.
我们按照上面的分类法组织ICL中的当前进展（如图2所示）。通过ICL的正式定义（§3），我们对热身方法（§4）、演示设计策略（§5）和主要评分函数（§6）进行了详细讨论。§7深入讨论了当前关于揭开ICL背后秘密的探索。我们进一步为ICL提供了有用的评估和资源（§8），并介绍了ICL显示其有效性的潜在应用场景（§10）。最后，我们总结了挑战和潜在的方向（§11），并希望这能为该领域的研究人员铺平道路。
在这里插入图片描述

3. Definition and Formulation

遵循 GPT-3 (Brown et al., 2020) 的论文，我们提供了上下文学习的定义：上下文学习是一种范式，它允许语言模型以演示的形式仅给出几个例子来学习任务。本质上，它通过使用训练有素的语言模型来估计以演示为条件的潜在答案的可能性。

形式上，给定查询输入文本 x 和一组候选答案 Y = {y1,., ym}(Y 可以是类标签或一组自由文本短语），预训练的语言模型 M 将得分最高的候选答案作为预测条件演示集 C。C 包含一个可选的任务指令 I 和 k 个演示示例；因此，C = {I, s(x1, y1)，., s(xk, yk)} 或 C ={s(x1, y1)，., s(xk, yk)}，其中 s(xk, yk, I) 是根据任务用自然语言文本编写的示例。候选答案 yj 的可能性可以用模型 M 的整个输入序列的评分函数 f 表示：
在这里插入图片描述
最终预测标签 ^y 是概率最高的候选答案：

评分函数f估计给出演示和查询文本的当前答案的可能性。例如，我们可以通过比较否定和肯定的标记概率来预测二元情感分类中的类标签。对于不同的应用，有许多f变体，这将在§6中详述。

根据定义，我们可以看到ICL与其他相关概念的区别。（1）提示学习：提示可以是鼓励模型预测期望输出的离散模板或软参数。严格来说，ICL可以被视为提示调优的一个子类，其中演示是提示的一部分。刘等（2021）对prompt learning进行了深入调查。但是，ICL不包括在内。（2） Fewshot Learning：few shot learning是一种通用的机器学习方法，它使用参数自适应，以有限数量的监督示例学习任务的最佳模型参数（Wang和Yao，2019）。相比之下，ICL不需要参数更新，直接在预训练的LLM上执行。

4. Model Warmup (模型预热)

尽管 LLM 显示出有希望的 ICL 能力，但许多研究也表明 ICL 能力可以通过预训练和 ICL 推理之间的持续训练阶段进一步改进，我们称之为模型预热很短。Warmup 是 ICL 的可选程序，它在 ICL 推理之前调整 LLM，包括修改 LLM 的参数或添加额外的参数。与微调不同，预热的目的不是针对特定任务训练LLM，而是增强了模型的整体ICL能力。

4.1 有监督的上下文训练

为了提高 ICL 能力，研究人员通过构建上下文训练数据和多任务训练提出了一系列有监督的上下文微调策略。由于预训练目标没有针对上下文学习进行优化（Chen et al., 2022a），Min 等人。 (2022b) 提出了一种方法 MetaICL 来消除预训练和下游 ICL 使用之间的差距。使用演示示例在广泛的任务上不断训练预训练的 LLM，这提高了其fewshot 能力。为了进一步鼓励模型从上下文中学习输入标签映射，Wei 等人。 (2023a) 提出了符号调整。这种方法在上下文输入标签对上微调语言模型，用任意符号（例如，“foo/bar”）替换自然语言标签（例如，“正/负面情绪”）。因此，符号调整展示了一种增强的能力，以利用上下文信息来覆盖先前的语义知识。

Lamda: Language models for dialog applications.
Scaling Instruction-Finetuned Language Models
Jason Wei:

  Finetuned Language models are zero-shot learners.

  Emergent abilities of large language models.

  Chain of though prompting elicits reasoning in large language models.

  symbol tuning improves in-context learning in language models.