最新综述:基于语言模型提示学习的推理

4304e3fe6da1d0610f9df56c55736aac.gif

©PaperWeekly 原创 · 作者 | OE-Heart

28c46a1dbeb28d2bda9cae0e210e96e2.png


引言

推理能力是人类智能的核心能力之一。随着预训练技术的不断发展,大模型辅之以提示学习(如 Chain-of-Thought Prompting [1])涌现出一系列的惊人的推理能力,引起了学术界、工业界学者的广泛关注。本文介绍一篇「基于语言模型提示学习的推理」综述,其从提示学习的视角对各种前沿推理工作进行了系统的划分、梳理和对比(近期还有 2 篇关于大模型推理的综述参见 [2][3])。

0fdce0a8d58ca5acb6985495786feda8.png

论文链接:

https://arxiv.org/abs/2212.09597  

资源列表:

https://github.com/zjunlp/Prompt4ReasoningPapers

本文对「基于语言模型提示学习的推理」的最新进展进行了梳理,包括预备知识、提示推理方法的分类、深入的比较和讨论、开放的基准和资源、以及未来的潜在方向。

ef6be515cfeb31a0addf46492b4061de.png

71ec66b25ecd53215024336822bf2eb1.png


预备知识

对于标准的提示(Prompt)学习,给定推理问题 、提示 和参数化的概率模型 ,推理任务的目标是最大化答案 的概率,即:

2a3c819df88a1ba2c1c1c60e897fbf20.png

其中 表示答案 的第 个 token, 表示答案 的长度。对于少样本提示, 由 对形式的 个样例组成。

为了提高预训练模型的提示推理能力,近期的工作有两个主要的研究分支。第一个分支是增强提示中的推理策略,包括提示工程、推理过程优化和外部推理引擎。

对于提示工程,许多方法尝试直接提高提示 的质量,这些方法可以称为单阶段方法。其他一些方法在每个推理阶段,将 作为上下文(Context)附加到 中,或者为每个 设计特定的提示 ,这些方法可以称为多阶段方法。例如,可以将一个复杂的问题分解成若干更简单的子问题,逐个推理推理步 加入提示中构成 ,因此公式(1)可以变换为:

d14d4411a752ef05ccc2570489957aae.png

其中 和 定义为:

fe467db56967a7856d12e15eeba0ac0e.png

是其中一个推理步,总计 个推理步。

对于推理过程优化,最简单的方法是引入一个参数化的优化器在生成答案 时校准推理步 ,这类工作可以称为自优化方法。而集成优化方法尝试从多个推理过程中联合得到最终结果。除此之外,整体的优化过程还能以迭代的方式与语言模型微调(生成目标三元组 )相结合,这类方法可以称为迭代优化方法。另外还有一些工作利用外部推理引擎生成提示 或直接执行推理步 来进行推理。

第二个研究分支是增强提示中的知识。大模型中富含的隐式知识可以帮助模型生成知识或推理依据作为知识提示。同时,外部资源中的显式知识也可以被利用并通过检索作为知识提示来增强推理。

0f478360c42aaa47bd8cd104e617b225.png


方法分类

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值