本文是关于2022年NIPS论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》的简要技术介绍。论文提出使用思维链提示(Chain-of-thought Prompting)可以有效促进大语言模型的逐步推理能力,进而获得更加准确的效果,尤其对于需要逐步推理的任务。
有关本专栏的更多内容,请参考大语言模型文献调研专栏目录
目录
Chain-of-thought(以下简称CoT)是通过提示词的调整来改变大语言模型的输出结构的方法,这种方法低成本而高效,无需对大模型进行任何训练和微调,只需要在提问时给出少量的推理样例,让大模型模仿推理过程,可以获得让模型输出更多中间计算过程。论文在数学推理、常识推理和符号推理三个基准上验证了CoT的性能。
关于CoT,有一些需要读者关注的问题:
- CoT是怎么实现的?
- CoT在哪些情况下有效?
- CoT为什么会有效?
接下来我们根据这篇论文来理解关于CoT的一些技术知识。
1. 论文的基本信息
1.1 论文资源
论文:https://arxiv.org/pdf/2201.11903.pdf
论文引用:
@article{wei2022chain,
title={Chain-of-thought prompting elicits reasoning in large language models},
author={Wei, Jason and Wang, Xuezhi and Schuurmans, Dale and Bosma, Maarten and Xia, Fei and Chi, Ed and Le, Quoc V and Zhou, Denny and others},
journal={Advances in neural information processing systems},
volume={35},
pages={24824--24837},
year={2022}
}
1.2 CoT的动机和方法
经过大量数据训练过的大语言模型天然的具备一定程度推理能力,为了解锁并使用这个能力,有研究者使用格式化的推理数据对大模型进行微调,然而数据的构建是一个成本高昂的问题;还有研究者使用小样本学习的方式,将输入大模型的提示语句中增加了一部分输入-输出示例,虽然不需要针对每个任务构建一个训练集,但是在一些需要推理的任务中性能欠佳。论文提出的CoT综合了上述方法的优点,通过小样本提示促使模型进行逐步推理,获得中间结果。
CoT有以下几个值得关注的属性:
- 让模型将复杂问题分解成多步
- 为研究者和用户提供模型推