零样本思维链（Zero-shot CoT）

最新推荐文章于 2025-03-03 21:56:43 发布

阿根廷必胜

最新推荐文章于 2025-03-03 21:56:43 发布

阅读量1k

点赞数 12

文章标签：人工智能

本文链接：https://blog.csdn.net/m0_74315028/article/details/145950671

版权

Large Language Models are Zero-Shot Reasoners (Kojima et al., 2022)

这篇文章研究了大型语言模型 (LLMs) 在推理任务上的能力，并提出了一种名为 Zero-shot-CoT 的新方法，该方法能够有效地引导 LLM 进行多步骤推理，并在各种推理任务上取得了显著的成果。

是基于我上一篇博客思维链 Chain-of-Thought Prompting-CSDN博客的后续研究，因为上一篇博客中的提示需要使用少样本提示(Few-shot-CoT)而提出来的零样本提示(Zero-shot-CoT)。

文章发现，在标准零样本提示方法无法取得良好效果的情况下，简单的添加 “Let’s think step by step” 提示，就能够显著提升 LLM 在算术、符号推理以及其他逻辑推理任务上的表现。

其实过程非常简单

Zero-shot-CoT方法通过两阶段提示引导模型生成推理过程和答案：

推理提取阶段（Reasoning Extraction）：通过添加触发句（如“Let’s think step by step”）让模型生成逐步的推理路径。
答案提取阶段（Answer Extraction）：基于生成的推理文本，使用特定格式提示（如“Therefore, the answer is”）提取最终答案。

推理提取阶段：
- 输入格式：将问题转换为模板“Q: [问题]. A: [触发句]”（例如“Q: 小明有5个苹果… A: Let’s think step by step”）。
- 模型生成：模型输出详细的推理过程（如数学计算、逻辑推导）。
答案提取阶段：
- 输入格式：将推理文本与答案触发句拼接（如“[推理文本] Therefore, the answer is”）。
- 模型生成：输出最终答案（数值、选项字母等），并通过正则匹配提取。

问题：
小明有5个苹果，他每天吃2个。这些苹果能吃几天？

阶段1：推理提取

输入：

Q: 小明有5个苹果，他每天吃2个。这些苹果能吃几天？  
A: Let’s think step by step.

模型生成：

小明有5个苹果，每天吃2个。  
第一天吃完后剩下5-2=3个；  
第二天吃完后剩下3-2=1个；  
第三天只能吃1个，不够2个。  
所以总共能吃2天。

阶段2：答案提取

输入：

Q: 小明有5个苹果… A: Let’s think step by step.  
第一天吃完后剩下5-2=3个… 所以总共能吃2天。  
Therefore, the answer is

有意思的是，同时论文也告诉你不是简单添加"Let's think step by step"而是通过他们多次严重准确率最高的

论文揭示了大型语言模型在零样本场景下的强大推理潜力，挑战了传统观点（即复杂推理需依赖任务特定示例或微调）。Zero-shot-CoT不仅为推理任务提供了高效的基线方法，还提示研究者应更深入探索语言模型中隐藏的零样本能力。未来工作可进一步挖掘多任务通用提示，以释放模型的高层次认知潜能。