思维链再进化！极简推理范式Chain of Draft：推理token爆砍80%~

最新推荐文章于 2025-04-17 07:00:00 发布

自动驾驶之心

最新推荐文章于 2025-04-17 07:00:00 发布

阅读量699

点赞数 15

本文链接：https://blog.csdn.net/CV_Autobot/article/details/146490995

版权

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享Zoom通讯公司最新的工作！CoT再进化！极简推理范式Chain of Draft！如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心『LLM』技术交流群

论文作者 | Silei Xu等

编辑 | 自动驾驶之心

目前来看，虽然思维链提示提升了复杂任务的准确性，却因冗长的推理步骤导致高昂的计算成本与延迟，严重制约了 LLM 在实时场景中的落地应用。本文创新性的提出了极简推理范式Chain-of-Draft（CoD），通过模拟人类提炼关键信息的草稿思维，将中间推理步骤压缩至极致，仅用 20% 的 token 量，在 GSM8K 等基准测试中实现与 CoT 相当甚至更高的准确率，同时将延迟降低达 76.2%！

写在前面&笔者的个人理解

最近推理模型如OpenAI o1以及DeepSeek R1等方面的最新进展推动了大语言模型在使用诸如思维链CoT等相关技术在复杂任务上取得了前所未有的表现。这种范式鼓励模型将问题分解为逐步的探索，模仿人类的结构化推理过程。

尽管这类过程取得了不错的结果，但是在推理的过程中需要更多的计算资源，导致输出冗长和更高的延迟。这种冗长的回答方式与人类通常解决问题的方式形成了鲜明的对比，即我们依靠简洁的草稿或速记笔记来捕捉重要见解，而无需不必要的阐述。

受此差异的启发，我们提出了 Chain of Draft (CoD)，这是一种新颖的提示策略，通过优先考虑效率和极简主义，更贴近人类推理。Chain of Draft 鼓励 LLM 在每个步骤生成简洁、信息密集的输出，而不是冗长的中间步骤。这种方法在不牺牲准确性的情况下减少了延迟和计算成本，使 LLM 更适用于效率至关重要的实际应用。

Chain of Draft背后的直觉根植于人类如何将思想外化。在解决复杂任务时，无论是解决数学问题、起草论文还是写代码，我们通常只记下有助于我们执行操作的关键信息。通过模仿这种行为，LLM可以专注于寻求解决方案，而无需进行冗长的推理。

为了评估 Chain of Draft 的有效性，我们在各种需要多步推理的基准上进行了实验，包括算术推理、常识推理和符号推理。我们的结果表明，与标准 Chain of Thought 相比，这种极简方法保持甚至提高了准确性，同时显著减少了 token 的使用和延迟。

论文链接：https://arxiv.org/pdf/2502.18600v2。

Chain-of-Draft 提示

思维链 (CoT) 提示策略已在各种任务中表现出显著的有效性，特别是那些需要复杂的多步骤推理的任务。然而，LLM 通常会产生过于冗长的推理步骤，在得出最终答案之前会消耗大量的 token。相比之下，人类在解决涉及多步骤推理的复杂问题（例如数学或逻辑谜题）时倾向于采用更简洁的方法。人类通常不会详细阐述每一个细节，而是只记下必要的中间结果以促进他们的思维过程。受这种自然倾向的启发，我们提出了一种名为 Chain-of-Draft (CoD) 的新颖提示策略。这种方法旨在通过限制每个推理步骤中使用的单词数量来减少冗长，只关注过程所需的基本计算或转换。

为了说明标准提示、思维链CoT提示以及我们提出的CoD提示，请考虑以下的这个简单的算术问题。

Q：杰森有 20 根棒棒糖。他给了丹尼一些棒棒糖。现在杰森有 12 根棒棒糖。杰森给了丹尼多少根棒棒糖？

标准提示方法生成的响应直接输出答案，通常无需任何推理。虽然正确，但这缺乏答案得出方式的透明度，并且需要语言模型在没有任何中间结果帮助的情况下运行多步推理，这通常会导致幻觉，如下图所示。

另一方面，思维链提示CoT提供了详细的推理过程。虽然这种回答准确且可解释，但它包含有关 Jason、Denny 和棒棒糖的不必要的细节，这些细节与解决数学问题无关。这种冗长的内容会增加 token 数量并增加响应延迟，如下图所示。

相比之下，Chain-of-Draft 提示将推理过程浓缩为最小的抽象表示。在这里，推理被提炼为一个简洁的方程式，仅关注得出解决方案所需的基本数学运算。通过抽象出不相关的上下文细节，CoD 显著减少了 token 数量，同时保持了透明度和正确性，具体过程如下所示。

实验结果

在实验过程中，我们遵循原始 CoT 论文对 3 类任务进行评估：算术推理、常识推理和符号推理。我们选择具有代表性的任务，其中原始 CoT 在没有推理的情况下显著提高了基线的准确性。具体来说，我们选择 GSM8k用于算术推理；选择 BIG-bench中的日期理解和体育理解用于常识推理；并选择 CoT 论文中介绍的硬币翻转任务用于符号推理。

在实验过程中，我们比较了三种不同的提示策略：CoT、CoD 和标准提示作为基准。

在标准提示的实验中，我们使用标准的少样本进行提示，其中模型被赋予输入-输出对作为上下文示例。要求LLM直接返回最终答案，而无需任何推理或解释。在CoT提示的实验中，我们遵循了CoT论文中提供的精确少样本示例，但为了更稳定答案提取，我们将最终的答案放在了####之后。在CoD提示的实验中，我们也要求模型逐步思考。但是，要求模型将每个推理步骤限制为最多五个单词。请注意，我们不会以任何方式强制执行这种限制，这只是促进简短推理步骤的一般准则。对于每个少样本示例，我们还包括人工编写的CoD。

每种提示策略的完整系统提示如下所示。

我们使用两个最受欢迎的模型来评估了每个任务：OpenAI的GPT-4o和Anthropic的Claude 3.5 Sonnet。

算术推理

我们首先考虑衡量 LLM 算术推理能力的数学问题。GSM8k已成为评估语言模型中算术推理的首选基准，提供了 8,500 个不同的小学水平数学问题的综合数据集。每个问题都配有详细的分步解决方案，强调算术、几何、代数和逻辑推理技能。

评估的结果如下表所示。可以看出，在使用标准提示时，该数据集对 GPT-4o 和 Claude 3.5 Sonnet 都提出了重大挑战，准确率分别是53.3%和64.6%。然而，随着 CoT 的应用，两个模型的准确率都超过了 95%，尽管每次响应需要生成大约 200 个 token。相比之下，CoD 使两个模型的准确率都达到了 91%，而每次响应只需要大约 40 个 token，从而将平均输出 token 数量减少了 80%，并将平均延迟分别减少了76.2%和48.4%。

常识推理

我们从 BIG-bench 评估了日期理解和体育理解任务，以证明 CoD 在常识推理中的有效性。为了保持一致性，我们使用与算术推理评估中相同的系统提示。

下表汇总了评估结果，可以看出，与 CoT 相比，CoD 通过在响应中生成更少的token，显著降低了延迟和成本。此外，CoD 在各种情况下的准确性都优于 CoT。值得注意的是，思维链提示会导致 Claude 3.5 Sonnet 的响应过于冗长，尤其是在体育理解任务中，CoD 将平均输出token从189.4 减少到14.3，减少了 92.4%。

符号推理

原始 CoT 论文介绍了抛硬币的任务，要求 LLM 在一系列抛硬币动作之后预测哪一面朝上。由于确切的数据集尚未发布，我们按照相同的设计合成了一个包含 250 个示例的测试集。评估数据的示例如下图所示。

GPT-4o 和 Claude 3.5 Sonnet 的评估结果如下表所示。它们在标准提示下分别达到 73.2% 和 85.2%。然而，这两个模型在 CoT 和 CoD 上都达到了完美的 100% 准确率。同样，与 CoT 相比，CoD 显示出显著的 token 减少，从 GPT-4o 的 68% 减少到 Claude 3.5 Sonnet 的 86%。

CoD的限制

我们评估了零样本设置下 CoD 的性能，其中没有提供少样本示例。下表中显示的结果显示 CoD 的有效性显著下降。值得注意的是，对于 Claude 3.5 Sonnet，CoD 的性能仅比直接回答提高了 3.6%。此外，与少样本设置相比，CoD 实现的 token 节省并不那么显著。我们假设这种限制是由于大型语言模型的训练数据中 CoD 式推理模式的稀缺或缺失造成的，这使得在没有少样本示例指导的情况下生成简洁而有见地的“草稿”是一项艰巨的任务。

此外，我们在几个参数少于 3B 的小型语言模型上测试了 CoD，包括 Qwen2.5 1.5B/3B instruct、Llama 3.2 3B instruct和我们内部的 Zoom SLM 2.3B 模型。虽然 CoD 有效地减少了每个响应所需的token数量并提高了直接回答的准确性，但与 CoT 相比，其性能差距在这些模型中更为明显。与零样本设置类似，我们怀疑这是由于训练过程中缺乏 CoD 样式的数据。我们预计，使用额外的 CoD 格式数据对这些模型进行微调可以显着提高它们使用 CoD 的推理准确性。

讨论

在研究 LLM 的推理能力时，延迟问题经常被忽视。然而，对于许多实时应用程序来说，在保持高质量响应的同时保持低延迟是至关重要的。在这项工作中，我们提出了 Chain-of-Draft (CoD)，这是一种新颖的方法，它大大减少了推理所需的延迟，同时实现了与标准 Chain-of-Thought 提示策略相当甚至更高的准确性。与通常涉及冗长推理步骤的传统方法不同，CoD 利用简洁的推理草稿来加快响应生成速度，而不会牺牲正确性。此外，CoD 还具有显着的成本优势。通过压缩推理步骤，它减少了小样本提示所需的输入 token 数量并缩短了输出 token 长度，直接降低了计算成本。这种 token 效率使 CoD 在成本敏感的场景中特别有吸引力，例如大规模部署 LLM 或预算严格受限的应用程序。

CoD 表明 LLM 中的有效推理并不一定需要冗长的输出，它提供了一种替代方法，即以最少的冗长程度保持推理深度。未来的工作可以探索将 CoD 与其他减少延迟的方法相结合，以进一步优化不同应用领域的性能。此外，CoD 紧凑推理背后的原理可以启发新的策略，通过使用紧凑的推理数据进行训练来改进推理模型，同时保持 LLM 的可解释性和效率，帮助弥补研究驱动的推理改进与现实世界系统的实际需求之间的差距。

自动驾驶之心

论文辅导来啦

知识星球交流社区

近4000人的交流社区，近300+自动驾驶公司与科研结构加入！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎加入。

独家专业课程

端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网：www.zdjszx.com