©PaperWeekly 原创 · 作者 | OE-Heart
引言
推理能力是人类智能的核心能力之一。随着预训练技术的不断发展,大模型辅之以提示学习(如 Chain-of-Thought Prompting [1])涌现出一系列的惊人的推理能力,引起了学术界、工业界学者的广泛关注。本文介绍一篇「基于语言模型提示学习的推理」综述,其从提示学习的视角对各种前沿推理工作进行了系统的划分、梳理和对比(近期还有 2 篇关于大模型推理的综述参见 [2][3])。
论文链接:
https://arxiv.org/abs/2212.09597
资源列表:
https://github.com/zjunlp/Prompt4ReasoningPapers
本文对「基于语言模型提示学习的推理」的最新进展进行了梳理,包括预备知识、提示推理方法的分类、深入的比较和讨论、开放的基准和资源、以及未来的潜在方向。
预备知识
对于标准的提示(Prompt)学习,给定推理问题 、提示 和参数化的概率模型 ,推理任务的目标是最大化答案 的概率,即:
其中 表示答案 的第 个 token, 表示答案 的长度。对于少样本提示, 由 对形式的 个样例组成。
为了提高预训练模型的提示推理能力,近期的工作有两个主要的研究分支。第一个分支是增强提示中的推理策略,包括提示工程、推理过程优化和外部推理引擎。
对于提示工程,许多方法尝试直接提高提示 的质量,这些方法可以称为单阶段方法。其他一些方法在每个推理阶段,将 作为上下文(Context)附加到 中,或者为每个 设计特定的提示 ,这些方法可以称为多阶段方法。例如,可以将一个复杂的问题分解成若干更简单的子问题,逐个推理推理步 加入提示中构成 ,因此公式(1)可以变换为:
其中 和 定义为:
是其中一个推理步,总计 个推理步。
对于推理过程优化,最简单的方法是引入一个参数化的优化器在生成答案 时校准推理步 ,这类工作可以称为自优化方法。而集成优化方法尝试从多个推理过程中联合得到最终结果。除此之外,整体的优化过程还能以迭代的方式与语言模型微调(生成目标三元组 )相结合,这类方法可以称为迭代优化方法。另外还有一些工作利用外部推理引擎生成提示 或直接执行推理步 来进行推理。
第二个研究分支是增强提示中的知识。大模型中富含的隐式知识可以帮助模型生成知识或推理依据作为知识提示。同时,外部资源中的显式知识也可以被利用并通过检索作为知识提示来增强推理。