1.5B小模型+32B外援=28%准确提升+8倍提速？SplitReason实现推理过程“无缝接力”

zenRRan

于 2025-04-25 13:22:35 发布

阅读量445

点赞数 5

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_27590277/article/details/147525667

版权

为什么需要让LLM学会“呼叫外援”？

大语言模型（如ChatGPT）虽然强大，但推理速度慢、算力消耗高。尤其是数学题、编程题等需要多步推理的任务，生成几千个token是家常便饭。这就像让一个博士生做小学数学题——虽然能做对，但时间和电费都让人心疼。

传统解决方案有两种：

全用小模型：速度快，但容易出错。
全用大模型：准确率高，但慢如蜗牛。

更尴尬的是，推理过程中并非每一步都难。比如解方程时，写“设未知数为x”很简单，但后续的复杂计算可能需要更高智商。于是论文提出：能不能让小模型处理简单步骤，遇到难题时自动呼叫大模型？

论文：SplitReason: Learning To Offload Reasoning
链接：https://arxiv.org/pdf/2504.16379

小模型和大模型接力生成答案

小模型和大模型接力生成答案

SplitReason如何实现“合作推理”？

SplitReason的核心理念是动态分工：

小模型（1.5B参数）：负责80-95%的推理步骤，像实习生一样处理常规任务。
大模型（32B参数）：作为“外援专家”，仅在关键难点介入。

关键机制：

小模型生成过程中，如果遇到困难，会主动发出信号 <bigmodel> ，相当于喊“这道题我不会了，大佬快来！”
大模型立刻接手，生成难点部分的答案，完成后用 </bigmodel> 交回控制权。
两者的KV缓存（记忆模块）实时同步，实现无缝切换。

控制信号的触发与模型切换

控制信号的触发与模型切换

如何训练小模型学会“求助”？

第一步：标注“困难段落”

用超大模型（DeepSeek-R1 671B）自动分析18万条数学题的推理过程，标注出20%最难的步骤，并打上 <bigmodel> 标签。
相当于让学霸给练习题划重点：“这里容易卡壳，需要开挂。”

第二步：分阶段训练

模仿学习（SFT）：让小模型学习标注数据，模仿何时该“求助”。
强化学习（GRPO）：进一步优化，奖励小模型“精准求助”——既不能乱喊救命，也不能硬撑到底。

数据标注过程示意图

数据标注过程示意图

实验结果：又快又准

准确率：相比纯小模型，AIME24数学题准确率提升28.3%。
速度：通过卸载5%的任务给大模型，整体推理速度比纯用大模型快5-8倍。
效率：大模型仅处理5%的token，却贡献了关键解题步骤。

实验对比：随机卸载 vs 智能卸载的效果差异

不同规模大模型的性能对比

不同规模大模型的性能对比

更惊人的是，即使随机让大模型处理5%的步骤，准确率也能提升20% 。而智能卸载（SplitReason）进一步优化了这一过程，实现“四两拨千斤”。

意义与未来

硬件友好：未来AI不仅要比谁更聪明，还要比谁更“省电”。
开源价值：论文公开了模型、数据集和代码，开发者可以直接复现或改进。
新范式：用强化学习让AI主动优化效率（RLAE），而不仅是模仿人类。

备注：昵称-学校/公司-方向/会议(eg.ACL)，进入技术/投稿群

id：DLNLPer，记得备注呦

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。