LM提示推理Prompting Reasoning--研究综述

在这里插入图片描述
推理作为复杂问题解决的基本能力,可以为各种现实世界的应用程序提供后端支持,如医疗诊断、谈判等。本文对语言模型提示推理的前沿研究进行了全面的综述。我们通过比较和总结介绍研究作品,并提供系统的资源来帮助初学者。我们还讨论了出现这种推理能力的潜在原因,并强调了未来的研究方向。
在这里插入图片描述
如上,语言模型的prompt可以是上下文 或 单纯提示让我们一步一步思考 或 知识库 ! 都可以增强模型的推理能力。

总结了10多篇关于COT论文:
COT论文总结链接

3 方法分类

在本文中,我们调查了现有的 LM 提示方法的推理,将其分类为策略增强推理知识增强推理

3.1 策略增强推理

该工作的主要目的是设计更好的推理策略来提高语言模型的推理性能,具体体现在提示工程concretely embodied in prompt engineering(§3.1.1)、过程优化process optimization(§3.1.2)和外部引擎 external engine(§3.1.3)。

3.1.1 提示工程

通过提示改进推理的一种直观方法是提示工程。如图3所示,我们根据提示阶段的数量将此类方法分为单阶段提示和多阶段提示。
在这里插入图片描述

图 3:策略增强推理的提示工程 (§3.1.1) 中的单阶段(左)和多阶段(右)。在每个阶段,由包含推理步骤 (C) 的多个示例提示的问题 (Q) 将被输入 LM。输出是给定问题的推理步骤和最终答案 (A)

  • 单阶段提示在 CoT 提示下,大型语言模型具有令人印象深刻的推理能力。最简单的仅通过串联“让我们一步一步思考”,LM 就可以有意识地生成推理步骤。
  • 多阶段提示人类在推理时,通常很难一下子想出整个推理过程。更直观的解决办法是把一个复杂的问题分解为更简单的子问题,并逐步推理。同样,这一系列作品旨在将以往的单阶段提示转变为多阶段提示。提示中明确定义了后续问题和中间答案,以缩小 LM 中的组合性差距。

3.1.2过程优化

推理过程的一致性以及推理步骤之间的连续性都会影响最终答案的准确性。直观上,如图4,我们以三种类型引入这一系列方法,即自我、集成和迭代过程优化。
在这里插入图片描述

图4. 策略增强推理的过程优化。Self-Optimization(红色)应用优化器模块来校准单个推理过程。Ensemble优化(蓝色)组合多个推理过程来校准最终答案。Iterative优化(紫色)通过迭代微调语言模型来校准推理过程。

3.1.3外部引擎

在使用 LM 提示进行推理时,模型应具有语义理解(例如问题)和复杂推理(例如生成推理过程)的能力;然而,鱼和熊掌不能兼得。为了消除障碍,外部推理引擎向 LM 伸出援手(见图 5)
在这里插入图片描述

图 5:策略增强推理的外部引擎(§3.1.3)。外部引擎扮演提示生成器(物理模拟器)或推理执行器(代码解释器)的角色,协助LM进行推理。

3.2知识增强推理

知识是推理的基石。知识增强方法旨在提示 LM 具有隐式(第 3.2.1 节)或显式(第 3.2.2 节)知识来协助推理(见图 6)
在这里插入图片描述
图 6:知识增强推理。提示由 LM(隐性知识)生成或从外部资源(显性知识)检索。

3.2.1隐式知识

研究人员表明,LM 包含大量隐性知识,可以通过条件生成来导出。以下作品试图引入这种“模型边缘”作为推理的知识提示。应用 GPT-3(Brown 等人,2020)并通过少量提示来生成知识并提示下游LM。据此,Liu等人借助强化学习的支持来进一步校准知识。与上述仅在知识生成阶段使用小样本提示不同,Sun等人(2022)提出了一种两阶段生成提示,其中还包括答案生成提示。李等人和 Wang 等人 (2022c) 都遵循生成解释的范式,提示较大的 LM,然后在较小的 LM 上进行微调。他们主要利用 LM 强大的生成能力和少样本提示。

3.2.2显示知识

尽管大型LM表现出强大的生成能力,但它们仍然具有幻觉事实的倾向并生成不一致的知识。最近的研究表明,检索上下文学习的提示是获得良好表现的好方法。由于Liu等人(2022a)衡量结构化信息相似度的不稳定性,Lu等人(2022b)提出了一种基于策略梯度策略的动态提示检索方法,无需暴力搜索。 Su等人(2022)制定了选择性注释框架,以避免对大型标记检索语料库的需要。它开发了一种基于图的方法,从大型未标记语料库中尽可能构建多样化且具有代表性的小型标记数据库。然后可以从小型数据库中检索上下文中标记的示例,这大大降低了注释和检索的成本。

4 比较与讨论

4.1语言模型比较

表1显示了不同方法的四个比较范围。我们在图 7 中进一步说明了算术推理的 GSM8K上不同规模的 LM 的性能比较
在这里插入图片描述
表1:不同范围的推理与提示方法的比较。

Wei 等人系统地证明,随着模型规模的增加,少样本提示在几乎所有任务中都表现得更好,这可以通过以下事实来解释:模型规模较大的 LM 包含更多用于推理的隐式知识
此外,CoT提示会产生更大的增长,其中 PaLM-540B 显示出最大的改进,如图 7 和 8 所示。然而,当模型规模下降到小于 100B 时,CoT 提示将不会带来任何性能提升,甚至可能是有害的。因此,CoT 提示引发了模型规模的涌现能力,该能力被定义为预训练的 LM 的能力,这种能力不存在于较小规模的模型中,但存在于大规模模型中(Wei 等人,2022a)。图 7 和图 8 中描绘了另一个有趣的观察结果,即 PaLM-62B(Chowdhery 等人,2022)甚至比 LaMDA-137B(Thoppilan 等人,2022)表现更好,可能是因为它是在更高质量的语料库上进行训练的 。
在这里插入图片描述

图 7:不同语言模型在算术推理方面的表现。代表性地,我们展示了 GSM8K 上的 CoT实验结果
在这里插入图片描述
图 8:不同语言模型在常识推理方面的表现。代表性地,我们展示了 CoT 在 CommonsenseQA 上的实验结果

值得注意的是,图 7 和图 8 还表明,在保持相同参数规模的情况下,Codex的性能显着优于 GPT-3,尽管它们之间的主要区别在于训练语料库(Codex 是对代码进行 GPT-3 变体训练) 。这种现象表明代码分支上的预训练不仅能够代码生成/理解的能力,但也可能触发 CoT 的推理能力。确切的原因仍然难以捉摸,但一种理论可能是代码是一种更合理的文本形式,面向过程的编程类似于逐步解决问题,而面向对象的编程类似于将复杂的任务分解为更简单的任务。

4.2提示比较

表 1 显示了使用 LM 提示的不同推理方法的比较。现有方法的提示来源主要有以下三种: 1)手动构建适用于基于模板的提示和提示不复杂的few-shot提示。 2)LM生成的提示弥补了手动构建提示的缺点。它可以为每个问题定制具体的原理,并提供足够的知识并提示进行微调或自我训练。 3)基于检索的提示通常依赖于注释良好的外部资源(例如维基百科)并消耗昂贵的信息检索,但它可以缓解生成的不稳定问题。

我们观察到,无论提示如何产生,CoT 只适用于在少样本提示下的大型 LM。输入上下文中包含的显式高质量推理依据是LM提示推理的关键。尽管一些工作尝试探索大型 LM 的上下文学习能力,但 CoT 提示能够在大型 LM 上取得成功的原因仍然令人着迷。社会并没有得到很好的理解。一种可能的假设是,CoT 是代码训练的神奇副产品,并通过提示解锁。请注意,在少样本提示中包含 CoT 的范例可以被视为一种激发隐藏在大型 LM 中的推理能力的指令。 Chung 等人 (2022) 在指令微调中使用 CoT 验证了类似的结果,以进一步提高模型性能。

5 基准和任务分类

NLP社区的研究人员发布了许多需要各种推理技能的基准,包括算术推理、常识推理、逻辑推理、符号推理和多模态推理

1、算术推理,也称为数学推理,是对数学单词问题(MWP)进行推理的能力。算术推理技能是人类智能的重要能力,也是通用人工智能系统的关键。这项任务的早期工作(Hosseini等人,2014;Kushman等人,2014年;Roy等人,2015年;Koncel Kedziorski等人,2015;Roy和Roth,2015;Ling等人,2017b)专注于相对较小的数据集,这些数据集由小学单步或多步MWP组成,其相关数学运算涵盖+、−、×、÷。后来的工作增加了复杂性和规模,并提出了其他数据集来增加难度。最近,Mishra等人(2022a)扩展了现有的数据集,构建了一个关于数学能力、语言格式、语言多样性和外部知识的统一基准。

2、常识推理,常识知识和常识推理是机器智能中的一些主要问题。在回答一个问题时,人们经常利用他们丰富的世界知识。对于LMs来说,执行常识推理的主要挑战在于如何在一般背景知识的假设下涉及物理和人类互动(Bhargava和Ng,2022)。许多基准数据集和任务旨在评估机器学习常识知识以推理自然语言文本的能力。目前使用最广泛的基准是CommonsenseQA(Talmor等人,2019),它基于ConceptNet中编码的知识,专注于常识性问答。

3、逻辑推理。常见的逻辑推理形式包括演绎推理和归纳推理。演绎推理是通过从一般信息到具体结论来进行的;该领域的典型数据集由合成规则库和衍生结论组成。最近,Dalvi等人(2021)创造性地提出了一个包含多步骤蕴涵树的数据集,旨在实现能够生成解释的模型,显示从已知到答案的推理路线。与演绎推理相反,归纳推理旨在通过从具体到一般得出结论。Sinha等人构建了一个诊断基准,要求LM既能提取实体之间的关系又能生成逻辑规则。

4、符号推理。符号推理在这里只指测试一组不同符号操作功能的简单任务的狭窄集合,而不是符号AI,符号AI是一个由规则引擎或专家系统或知识图实现的更通用的概念。这些任务的构建通常是由人类定义的;因此,很容易将测试集划分为域内测试集和域外测试集。典型的符号推理任务包括最后一个字母的串联、反向列表和硬币翻转。

5、多模式推理。大多数现有的推理基准都局限于文本模态和有限的领域多样性。然而,人类在进行推理时会利用不同模态中可用的信息。为此,提出了多模态推理基准来缩小这一差距。Zellers等人(2019)试图从图像中回答认知层面的问题,Park等人(2020)检查PLM从静态图像和事件中对动态上下文的推理程度。最近,Lu等人(2022a)提出了ScienceQA,这是一个大规模的多模式多选数据集,由不同的科学主题问题组成,并给出了相应的答案和解释。张等(2022a)提出了在知识图上进行多模态类比推理的新任务,这需要在背景知识的帮助下进行多模态推理。
除了上述具体的推理任务外,还有一些基准可以评估模型更多样和更广义的推理能力,这些能力也可以被纳入推理任务的类别。最近,Y u等人(2022)引入了ALERT,这是一个跨越20多个数据集的基准,涵盖了10种不同的推理技能,以评估细粒度推理技能的不同LMs。

6 未来发展方向

6.1推理的理论原理

LMs已被证明具有突发的零样本学习和推理能力。为了揭开这种成功的奥秘,许多研究人员从经验上探索了情境学习的作用和理由。另一系列工作试图通过知识神经元(Dai et al.,2022)或技能神经元(Wang et al.,2022d)来研究Transformer的架构。然而,LM提示推理的潜在理论原理仍然需要更好地理解。有一种假设认为,代码和推理能力/CoT之间可能存在相关性。最近的工作,王等人(2022e)和Madaan等人。(2022)证明,即使下游任务根本不涉及源代码,预训练的代码LMs也比自然语言LMs更好地处理结构化常识推理和结构预测。因此,真相可能是接近的,我们认为,研究理论原理是有益的,即提倡在LM提示下的透明推理观,并通过强调语言、知识和推理之间的反直觉连续体来进一步解读智力的暗物质。

然而,基于代码的预训练(或重构预训练(Yuan和Liu,2022))仍然存在局限性,因为它必须利用现成的结构(例如,现有的对齐语料库或通过语法树或AMR从头开始构建(Banarescu et al.,2013))来重新表述纯文本。因此,我们设想开发统一的基础架构,而不是Transformers(V aswani et al.,2017)来编码多粒度/多模式数据,可能受到物理学、认知或脑科学以及一些尖端技术的启发,如尖峰神经网络(DeWolf,2021)、扩散模型(Dhariwal和Nichol,2021),常微分方程(Li et al.,2022a)也可以提供有见地的解。

6.2高效推理

需要注意的是,现有的方法主要依赖于大型LM,这可能消耗高计算资源。关于实用性,有必要研究使用小型LMs的推理,或开发高效的推理方法,在模型训练和推理过程中关注碳排放和能源使用(Xu et al.,2021)。

一种可行的方法可能是开发能够在一系列评估场景中进行概括的模型,如Flan-T5(Chung et al.,2022),其在 有和没有样本(即zero-shot and few-shot)以及 有和没有CoT 的情况下进行微调。另一种方法是语言模型级联,我们可以级联几个较小的LM来与一个较大的LM竞争。最近,有人提出了一种直观的方法,通过知识蒸馏将大型LMs的推理能力转移到较小的LMs。其他有前景的方向包括检索增强、模型编辑、delta-tuning等。

6.3稳健且可解释的推理

深度学习领域长期以来一直追求鲁棒性和可解释性,尤其是在推理等需要强大逻辑的任务中。Creswell和Shanahan(2022)利用选择推理多阶段架构进行忠实推理,但每个阶段仍然缺乏可解释性。基于代码的工作在一定程度上达到了稳健性和可解释性,但它们有外部引擎的帮助。使用LMs实现真正的稳健性和可解释性还有很长的路要走。幸运的是,Dohan等人(2022)提供了一个新的想法,可以利用带有LMs的概率程序来解决各种基于语言的推理问题。
其他可能的解决方案可能是利用神经符号方法或从人类反馈中强化学习,如ChatGPT。

6.4多模式(交互式)推理

文本篇幅推理仅限于通过自然语言表达的内容。一个更有前景的方向是关于人类推理的真实世界的信息多样性的多模态推理。
最近的一项工作Lu等人(2022a)在处理多模式数据集时生成CoT;然而,它只是从图像中提取文本描述,实际上仍然是一项文本推理任务。直观地说,将多模态信息集成到图像、音频、视频等推理过程中,并设计统一的多模态CoT是有益的。除了统一的多模式模型外,建模链model chains在不同模态的模型之间进行交互式推理也是有希望的。此外,(Sap et al.,2022)表明,当今最大的语言模型之一(GPT-3)缺乏推理所有参与者的心理状态和反应的技能。因此,互动推理方法应通过启发其他领域(例如,认知科学、社会智能)来注意,这些领域可能对NLP中的推理有潜在的指导作用,因为仅仅增加LMs的规模可能不是创建人工智能系统的最有效方法。

6.5可归纳(真实)推理

泛化是模型获得真正推理能力的最重要标志之一。给定一个推理任务,我们希望LM不仅能处理问题本身,还能解决一组类似的推理任务(在训练中没有看到)。周等(2022b);Anil等人(2022)探讨了关于推理问题长度的OOD问题,但真正的泛化仍远不能令人满意。
与此同时,Kejriwal等人(2022)强调,应该提出基于理论的更全面的评估方法(例如,天真物理学和常识心理学)。我们认为,可推广推理可能与类比推理、因果推理、组合推理等密切相关。此外,可推广的推理能力可能与上述理论原理、稳健性和可解释性相分离,应从多个角度加以考虑。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值