近日,小米大模型团队通过 “Xiaomi MiMo” 公众号宣布,全新成立的 “大模型 Core 团队” 推出首个 “为推理而生” 的大模型 Xiaomi MiMo 并正式开源。作为一款仅 7B 参数的模型,MiMo 在数学推理测评集 AIME 24-25 和代码竞赛测评集 LiveCodeBench v5 上,超越了 OpenAI 闭源推理模型 o1-mini 及阿里 Qwen 的 32B 开源模型 QwQ-32B-Preview,以小参数规模实现了推理能力的突破。
MiMo 的推理能力提升源于预训练与后训练阶段的多层面创新。预训练阶段,团队聚焦富推理语料挖掘,合成约 200B tokens 推理数据,并采用三阶段渐进训练策略,从基础逻辑到复杂推理逐步提升难度,总训练量达 25T tokens,让模型充分学习多样化推理模式。后训练阶段,通过 Test Difficulty Driven Reward 机制缓解困难任务的奖励稀疏问题,结合 Easy Data Re-Sampling 策略稳定训练,并借助 Seamless Rollout 系统实现 RL 训练加速 2.29 倍、验证加速 1.96 倍,以高效算法和框架优化强化推理性能。
在实际测评中,MiMo-7B 展现出超越参数规模的优势:数学推理领域,于 AIME 24-25 中在几何证明、数论等复杂题型上表现突出,超越 13B 参数的 o1-mini;代码竞赛领域,在 LiveCodeBench v5 的动态规划、图论等算法题上通过率领先 32B 参数的 QwQ-32B-Preview,体现出在数学与代码推理任务中的高效能力。
目前,小米已将 MiMo-7B 开源至 Hugging Face,并同步发布技术报告,为开发者提供模型及技术细节。作为小米大模型研发的初步尝试,MiMo 的开源不仅为行业提供了轻量级推理解决方案,更展现其在数据与算法结合上的创新能力,推动大模型在推理场景中的实用化探索。