大模型思维链论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》简要介绍

2022年的NIPS论文介绍了一种名为Chain-of-ThoughtPrompting(CoT)的方法,通过调整提示词促使大语言模型进行逐步推理,显著提高准确性。研究者在数学、常识和符号推理任务上验证了这种方法,发现模型参数量越大,CoT效果越显著。文章还探讨了CoT的局限性,如模型规模、提示工程的重要性以及任务类型对CoT适用性的考量。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文是关于2022年NIPS论文《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》的简要技术介绍。论文提出使用思维链提示(Chain-of-thought Prompting)可以有效促进大语言模型的逐步推理能力,进而获得更加准确的效果,尤其对于需要逐步推理的任务。

有关本专栏的更多内容,请参考大语言模型文献调研专栏目录

Chain-of-thought(以下简称CoT)是通过提示词的调整来改变大语言模型的输出结构的方法,这种方法低成本而高效,无需对大模型进行任何训练和微调,只需要在提问时给出少量的推理样例,让大模型模仿推理过程,可以获得让模型输出更多中间计算过程。论文在数学推理、常识推理和符号推理三个基准上验证了CoT的性能。

关于CoT,有一些需要读者关注的问题:

  1. CoT是怎么实现的?
  2. CoT在哪些情况下有效?
  3. CoT为什么会有效?

接下来我们根据这篇论文来理解关于CoT的一些技术知识。

1. 论文的基本信息

1.1 论文资源

论文:https://arxiv.org/pdf/2201.11903.pdf

论文引用:

@article{wei2022chain,
  title={Chain-of-thought prompting elicits reasoning in large language models},
  author={Wei, Jason and Wang, Xuezhi and Schuurmans, Dale and Bosma, Maarten and Xia, Fei and Chi, Ed and Le, Quoc V and Zhou, Denny and others},
  journal={Advances in neural information processing systems},
  volume={35},
  pages={24824--24837},
  year={2022}
}

1.2 CoT的动机和方法

经过大量数据训练过的大语言模型天然的具备一定程度推理能力,为了解锁并使用这个能力,有研究者使用格式化的推理数据对大模型进行微调,然而数据的构建是一个成本高昂的问题;还有研究者使用小样本学习的方式,将输入大模型的提示语句中增加了一部分输入-输出示例,虽然不需要针对每个任务构建一个训练集,但是在一些需要推理的任务中性能欠佳。论文提出的CoT综合了上述方法的优点,通过小样本提示促使模型进行逐步推理,获得中间结果。

思维链提示比标准提示更好应对推理难题

CoT有以下几个值得关注的属性:

  • 让模型将复杂问题分解成多步
  • 为研究者和用户提供模型推
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值