最新综述：基于语言模型提示学习的推理

最新推荐文章于 2024-06-24 00:42:24 发布

PaperWeekly

最新推荐文章于 2024-06-24 00:42:24 发布

阅读量1.4k

点赞数 1

文章标签：语言模型学习人工智能深度学习计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/128565472

版权

©PaperWeekly 原创 · 作者 | OE-Heart

引言

推理能力是人类智能的核心能力之一。随着预训练技术的不断发展，大模型辅之以提示学习（如 Chain-of-Thought Prompting [1]）涌现出一系列的惊人的推理能力，引起了学术界、工业界学者的广泛关注。本文介绍一篇「基于语言模型提示学习的推理」综述，其从提示学习的视角对各种前沿推理工作进行了系统的划分、梳理和对比（近期还有 2 篇关于大模型推理的综述参见 [2][3]）。

论文链接：

https://arxiv.org/abs/2212.09597

资源列表：

https://github.com/zjunlp/Prompt4ReasoningPapers

本文对「基于语言模型提示学习的推理」的最新进展进行了梳理，包括预备知识、提示推理方法的分类、深入的比较和讨论、开放的基准和资源、以及未来的潜在方向。

预备知识

对于标准的提示（Prompt）学习，给定推理问题、提示和参数化的概率模型，推理任务的目标是最大化答案的概率，即：

其中表示答案的第个 token，表示答案的长度。对于少样本提示，由对形式的个样例组成。

为了提高预训练模型的提示推理能力，近期的工作有两个主要的研究分支。第一个分支是增强提示中的推理策略，包括提示工程、推理过程优化和外部推理引擎。

对于提示工程，许多方法尝试直接提高提示的质量，这些方法可以称为单阶段方法。其他一些方法在每个推理阶段，将作为上下文（Context）附加到中，或者为每个设计特定的提示，这些方法可以称为多阶段方法。例如，可以将一个复杂的问题分解成若干更简单的子问题，逐个推理推理步加入提示中构成，因此公式（1）可以变换为：

其中和定义为：

是其中一个推理步，总计个推理步。

对于推理过程优化，最简单的方法是引入一个参数化的优化器在生成答案时校准推理步，这类工作可以称为自优化方法。而集成优化方法尝试从多个推理过程中联合得到最终结果。除此之外，整体的优化过程还能以迭代的方式与语言模型微调（生成目标三元组）相结合，这类方法可以称为迭代优化方法。另外还有一些工作利用外部推理引擎生成提示或直接执行推理步来进行推理。

第二个研究分支是增强提示中的知识。大模型中富含的隐式知识可以帮助模型生成知识或推理依据作为知识提示。同时，外部资源中的显式知识也可以被利用并通过检索作为知识提示来增强推理。

方法分类

最低0.47元/天解锁文章

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
最新综述：基于语言模型提示学习的推理

©PaperWeekly 原创 ·作者 |OE-Heart引言推理能力是人类智能的核心能力之一。随着预训练技术的不断发展，大模型辅之以提示学习（如 Chain-of-Thought Prompting [1]）涌现出一系列的惊人的推理能力，引起了学术界、工业界学者的广泛关注。本文介绍一篇「基于语言模型提示学习的推理」综述，其从提示学习的视角对各种前沿推理工作进行了系统的划分、梳理和对比（近期还...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。