7B的DeepSeek蒸馏Qwen数学超o1!在测试时间强化学习,MIT积分题大赛考93分

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

见识过32B的QwQ追平671的DeepSeek R1后——

刚刚,7B的DeepSeek蒸馏Qwen模型超越o1又是怎么一回事?

4ea6f6d8dfa4d54bedc1d8d09adace21.png

新方法LADDER,通过递归问题分解实现AI模型的自我改进,同时不需要人工标注数据。

使Deepseek-R1蒸馏的Qwen2.5 7B模型在麻省理工学院积分大赛(MIT Integration Bee)上达到90分超越o1。

dbf2fab6671eea58cf307ab95c1231a3.png

注意,不是积分制的比赛哦,是只做微积分中积分题的比赛,MIT的数学高手每年都会挑战一次,题目像这样:

4fea2ff3e4a0682cea8a39d8cf5218f6.png

LADDER论文来自小型独立研究团体Tufa Labs,论文已上传到arXiv。

f3e4a5d672f4f1f4a64ca06064d4b1dd.png

在推理时间强化学习

LADDER,全称Learning through Autonomous Difficulty-Driven Example Recursion,即”通过自主难度驱动的样本递归进行学习”。

这个名字听起来有点拗口,但核心其实很容易理解:就是让语言模型(LLM)通过自我生成和求解渐进简化的问题变体,来不断提升自己解决复杂问题的能力。

e930553f6257a857e9e8b204dfb9fcd1.png

具体来说,LADDER是一个结构化框架,由以下组件组成:

  • 变体生成:一种结构化方法,用于生成复杂问题的逐渐简化变体的树,从而建立自然的难度梯度。

  • 解的验证:一种用于验证积分解的数值积分方法。

  • 强化学习:用于在变体树上训练基础模型的协议。

4a77c06826f6cefe2992ee46dca686f0.png

而LADDER这个名字,也意味着像是模型学会了”爬梯子”:通过自主生成一系列从易到难的问题变体,不断练习和强化,最终爬到顶端。

9f7e828e596422f2c965f79c4e8fe29e.png

以往的训练方法,总是离不开大规模标注数据。

LADDER利用模型现有能力来生成问题变体,形成循序渐进的难度梯度,最终实现自举学习。整个过程只需对答案进行验证即可,无需人工干预。

相比之前的方法,LADDER有三大优势:

不再依赖人工标注数据,降低了数据获取成本;模型通过生成问题变体构建针对性的学习路径,学习更高效;生成的问题变体与原始问题相关性高,避免陷入无关细节。

此外,作者还提出了一种创新的测试时强化学习方法TTRL。在推理阶段遇到复杂的数学积分测试问题时,TTRL会动态生成一系列更简单的积分变体,模型通过解决这些变体来积累经验,找到解决原始难题的方法。

这种测试时计算扩展的思路,为进一步提升模型性能开辟了新的道路。不同于简单增加输出长度,TTRL能够让模型在推理时针对性地”刷题”,动态扩展能力边界。

通过LADDER,一个原本只有1%准确率的Llama 3.2 3B模型,在没有任何人工标注数据的情况下,解题准确率飙升至82%。

3c0b73b251538abd1698c272d14035e0.png

更强大的基础模型Qwen2.5 7B Deepseek-R1 Distilled,在用上LADDER方法后,

MIT Integration Bee比赛的成绩就从50%提高到73%。

9a9ead41b2bbb3c3812473ed1a98731c.png

最后,LADDER加上TTRL方法,让最终成绩达到90。

7e3fa57732115e99e0578af44f1cb10a.png

不过作者也强调,与o1的对比不是严格的头对头评估。

o1无法访问数字检查器,这意味着它在不同的约束下运行。LADDER的结果强调了通过递归问题分解和强化学习进行自我提升的有效性,而不是表明它直接优于o1的方法。

论文地址:https://arxiv.org/abs/2503.00735

参考链接:
[1]https://x.com/yoshiyama_akira/status/1897662722679959583

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值