小米发布首个Reasoning模型MiMo:7B可超越o1-mini,从预训练到后训练挖掘推理潜力

近年来,GPT-4、Claude等大模型在数学推理、代码生成等复杂任务中表现惊艳,但这些模型动辄千亿参数,普通人根本玩不起。

论文:MiMo: Unlocking the Reasoning Potential of Language Model – From Pretraining to Posttraining
链接:https://arxiv.org/pdf/2505.07608

而小米LLM团队的这篇论文提出的MiMo-7B却以70亿参数(不到GPT-4的1%!)实现了对32B大模型的性能超越,甚至在数学竞赛AIME和代码生成任务中碾压OpenAI的o1-mini。

它的秘诀在于:从预训练到强化学习,全程围绕「推理能力」做优化。如果说传统大模型是「通才」,MiMo-7B就是专为解题而生的「偏科天才」。

预训练:数据混合与多步预测的「推理基因」

预训练阶段,MiMo-7B做了三件关键事:

  • 数据筛选:用LLM当「质检员」,过滤低质量网页,保留数学公式和代码片段。

  • 三阶段数据混合:先学通用知识,再猛攻数学代码(占70%),最后加入LLM生成的「参考答案」。

  • 多令牌预测(MTP):不仅预测下一个词,还「提前规划」后面多个词,推理速度提升明显!

强化学习:数学题和代码如何「教」LLM思考?

后训练阶段,团队用13万道数学题和编程题对模型进行「特训」,并通过强化学习(RL)让模型学会「自我反思」。亮点包括:

  • 考试难度奖励:模仿奥赛评分规则,难题部分答对也能得分,避免「一题不会全盘崩溃」。

  • 动态采样:自动筛掉太简单或太难的题,集中训练「有效难度」的问题。

  • 无缝训练引擎:优化GPU利用率,训练速度提升2.29倍!

性能出色:碾压32B大模型的7B小个子

在多项基准测试中,MiMo-7B表现惊人:

  • 数学推理:AIME 2025得分55.4,比OpenAI o1-mini高4.7分。

  • 代码生成:LiveCodeBench v6得分49.3%,远超同规模模型。

  • 长文本理解:32K上下文内近乎完美的信息检索能力。

更夸张的是,MiMo-7B的基础模型(未强化学习版)在部分任务上直接吊打32B大模型,证明其「推理潜力」天生强大。

开源与未来:普通人也能用

团队将MiMo-7B系列全部开源,包括基础版、SFT微调版和RL强化版。这意味着开发者可以低成本部署一个擅长解题的小助手。

未来,这种「小模型专精推理」的思路可能颠覆行业——毕竟训练和推理成本更低,落地更容易!


备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群

id:DLNLPer,记得备注呦

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值