为什么提示词总出错?使用思维链(CoT)提升效果高达 78%!

思维链(Chain of Thought, CoT)提示是由谷歌研究团队在2022年提出的一种创新方法,用于提升大语言模型在复杂推理任务中的表现。思维链通过在提示中嵌入中间推理步骤,使模型能够以逐步推理的方式解决问题,显著改善了模型在数学、常识和符号推理等任务上的表现。

现在(2024年末),随着大模型能力的显著增强,许多简单任务即便不使用显式的思维链提示,模型也能直接输出正确答案,但是对于复杂的推理,CoT的效果还是非常突出

论文:《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》
https://arxiv.org/abs/2201.11903v6

一、什么是思维链(CoT)

2022年,Google探索了提示词由三元组⟨输入、思维链、输出⟩ 组成,语言模型在推理任务中的能力。

思维链指的是一系列中间自然语言推理步骤,这些步骤最终导向最后的输出。这种方法称为基于思维链的提示(Chain-of-Thought Prompting)

如:

一般的少样本提示:

提示词中有1个示例

问 :小明有5个网球,他又买了2罐网球,每罐有3个网球。他现在有多少个网球?
答 :11个

问 :自助餐厅有23个苹果,如果他们用20个做午餐,再买6个,他们有多少个苹果?

思维链提示:

提示词中有1个示例,并且示例中有思维链过程

问 : 小明有5个网球,他又买了2罐网球,每罐有3个网球。他现在有多少个网球?
答 :罗杰从5个球开始。2罐3个网球,每罐6个。5+6=11。答案是11.

问 : 自助餐厅有23个苹果,如果他们用20个做午餐,再买6个,他们有多少个苹果?

通过提供一些示例(或范例),其中推理过程被明确展示,LLM学会在其响应中包含推理步骤。这种结构化思考方法通常会导致更准确的结果。

少样本提示

以下示例 阐明了标准的少样本提示(左侧)CoT 提示(右侧) 之间的差异。虽然传统方法直接走向解决方案,但 CoT 引导模型展示其推理过程,通常导致更准确和可解释的结果。

图1

二、思维链(CoT)的表现

三个大型语言模型上的实验表明,思维链提示提高了在一系列算术、常识和符号推理任务上的性能。增益是显著的。

例如,仅用八个思维链示例对 PaLM 540B 进行提示,就能在数学应用题的 GSM8K 基准测试中达到最先进的准确度,甚至超越经过验证的微调 GPT-3,见图2


图2

论文时间是2023年1月,基于当时的表现,CoT的成绩是非常突出的

PaLM(Pathways Language Model)是谷歌大型语言模型,最新版本是PaLM 2,在Google I/O 2023大会上发布,与GPT4对标

仅依靠提示的方法来提升推理性能很重要,因为它不需要大规模的训练数据集,并且单个模型可以在不失去一般性的情况下执行许多任务。

这项工作强调了大型语言模型如何通过少量关于任务的自然语言数据示例进行学习来提升性能(与通过大规模训练数据集自动学习输入和输出的模式相对照)

三、CoT提示的工作原理

  • 分解问题:CoT 提示引导模型将复杂问题分解为可管理的步骤,类似于人类解决问题的方式。

  • 以示例为指导:链式思维使用展示推理步骤的例子,帮助模型理解达到正确答案所需的方法。

CoT 提示在结构化推理至关重要的任务中尤其有价值:

  • 数学和算术:思维链(CoT)通过逐步指导计算,帮助解决多步骤文字题。

  • 常识性和符号推理:在需要常识或符号推理的任务中,CoT可以弥合事实与逻辑之间的鸿沟。

  • 复杂决策过程:在机器人等领域,CoT使模型能够按照逻辑步骤执行决策任务。

四、CoT的局限性

CoT 在较小的模型或性能较差的模型下,如果编写了不合逻辑的思维链,这会导致了比标准提示更差的准确性。

思维链(CoT)提示是**少样本提示(Few-Shot Prompting)**的一个实例,通过将少量示例中的答案修改为一步一步的答案,提出一个简单的解决方案,实现了显著的性能提升。

它允许模型在没有额外训练数据的情况下有效地执行复杂推理任务。在“大”模型(例如,参数超过 1000 亿的模型)中,这些结构化推理提示尤其显著,它们在遵循这些提示时展现出强大的推理能力。

这种性能提升是在少样本提示(Few-Shot Prompting)下的效果,属于 Few-Shot-CoT,那么在零样本提示(Zero-Shot Prompting)下应该怎么做思维链提示?

五、什么是零样本-CoT(Zero-Shot-CoT)

《Large Language Models are Zero-Shot Reasoners》提到了 Zero-Shot-CoT , 它是一种用于思维链推理的**零样本提示(Zero-Shot Prompting)**方法,基于模板构建。

这种方法与之前的思维链提示不同,它不依赖于逐步提供的少量示例来引导AI。同时,它也不针对特定任务,而是能够跨越多种任务,使用单一模板来激发多步推理过程。

Zero-Shot-CoT 的核心思想相当直接,即在提示词中加入 “让我们一步一步思考” 这样的文本,目的是引导AI进行逐步的推理。这种方法通过简单的提示,就能让AI在广泛的任务中进行多步骤的逻辑推理,而不需要为每个任务设计特定的提示或示例。

如:

少样本-CoT提示词:

我去市场买了10个苹果。我给了邻居2个苹果和修理工2个苹果。然后我去买了5个苹果并吃了1个。我还剩下多少苹果?   让我们一步一步思考   

零样本提示

与少样本-CoT 类似,零样本-CoT 促进了多步推理(蓝色文本),并在标准提示失败的情况下得出正确答案。与每个任务使用逐步推理示例的少样本-CoT 不同,它不需要任何示例,而是对所有任务(算术、符号、常识和其他逻辑推理任务)使用相同的提示“让我们一步一步想”,见图3


图3

六、零样本-CoT的表现

对 零样本-CoT 与其他提示基线进行了实证评估。 零样本-CoT 表现不如在经过精心设计下的 少样本-CoT,但与 标准零样本 基准相比,零样本-CoT 取得了巨大的分数提升

例如在 MultiArith 上从 17.7% 提高到 78.7%,在 GSM8K 上从 10.4% 提高到 40.7% ,见图4

图4 在 MultiArith 和 GSM8K 上使用的准确性

图5 不同模型下的表现

数据标明,在零样本提示下,通过添加一个简单的提示“让我们一步一步来”,可以促进在回答每个问题之前进行逐步的思考,尽管简单, Zero-Shot-CoT 成功地以 零样本 的方式生成一个合理的推理路径,并在标准 零样本 方法失败的问题中得出正确答案,并且性能分数得到提高。重要的是, Zero-Shot-CoT 是通用的并且不依赖于任务,这与大多数之前特定任务的提示工程不同

最后,不管在零样本的情况下,还是少样本的情况下,思维链都是一个很好的方式,用来提升大模型的推理效果


七、如何系统学习掌握AI大模型?

AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 2024行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

5. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值