推测性思维链SCoT:小模型“模仿”大模型,最高提速2.9倍,准确率几乎不降

现在的大模型(比如论文提到的 Deepseek-R1)虽然能解决复杂数学题,但有两个致命缺点:

  • 体型庞大:动辄几百亿参数,像“超级计算机”一样耗资源;

  • 思考过程长:解一道题要生成几千甚至上万字的思维链(Chain-of-Thought, CoT),相当于“把草稿纸写满才交卷”。

这就导致用大模型做题成本高、速度慢,用户体验像“等蜗牛爬完马拉松”。

论文标题:

Efficient Reasoning for LLMs through Speculative Chain-of-Thought

论文链接:

https://arxiv.org/pdf/2504.19095

代码链接:

https://github.com/Jikai0Wang/Speculative_CoT

传统解决方案的局限性

过去科学家尝试两种方法提速:

  • 减肥法:把大模型压缩成小模型(比如从 300 亿参数压到 15 亿),但小模型解题能力直线下降;

  • 缩写法:让模型少写点“草稿”,直接给答案。但遇到难题时,草稿太短反而容易出错。

这两种方法像是“要么砍性能,要么赌运气”,都不是最优解。

SCoT 的创新思路:大小模型“打配合”

这篇论文提出的 SCoT(推测性思维链),核心思想像职场中的“高效团队”:

  • 小模型当实习生:快速生成多个解题草稿(比如同时写 5 种解法);

  • 大模型当老板:一键审核草稿,选中最好的直接交卷,发现全错就自己重写。

这样一来,简单题靠小模型速战速决,难题靠大模型兜底,既省时间又保质量。

▲ 小模型批量生成草稿,大模型快速选择或纠错

技术细节:如何让小模型“模仿”大模型?

要让小模型写出和大模型风格一致的“草稿”,论文做了两件事:

  • 对齐思考行为:用大模型的解题过程当参考答案,训练小模型“抄作业”;

  • 动态纠错机制:大模型审核时,如果所有草稿都错,就启动“老板亲自上阵”模式。

这里用到一个关键公式(原文公式 2),训练小模型时让它最大化匹配大模型的输出概率:

简单说,就是让小模型写的每一步草稿,都尽量接近大模型的习惯。

结果:推理速度翻倍,准确率几乎不降

论文在5个数学数据集上测试 SCoT,结果惊艳:

  • 速度提升:最高提速 2.9 倍(比如原来需要 225 秒的题,现在 77 秒搞定);

  • 准确率无损:复杂题(如奥赛级题目)的准确率只比大模型单独解题低 1%~2%。

▲ 不同数据集上的速度对比

▲ SCoT与纯大模型的准确率接近

更厉害的是,SCoT 甚至让最终答案更简洁(草稿质量高,大模型不用再啰嗦)!

意义:LLM 推理的“性价比革命”

SCoT 的价值不仅是技术突破,更打开了新思路:

  • 成本降低:小模型承担大部分工作,减少大模型调用次数;

  • 灵活适配:根据题目难度动态分配资源,像“智能档位切换”;

  • 开源代码:作者公开了代码,大家可以快速落地应用。

未来,这种“协作式推理”可能会成为 AI 产品的标配,让 ChatGPT 们既快又聪明!

更多阅读

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值