4 月 30 日,小米在人工智能领域扔下一颗 “重磅炸弹”,正式开源其首个为推理(Reasoning)而生的大模型 ——Xiaomi MiMo。这一举措不仅标志着小米在大模型技术研发上取得重大突破,更为全球开发者提供了一个强大且开源的推理工具,引发了业界的广泛关注。
一、性能卓越,小参数也有大能量
别看 MiMo 只有 7B 的参数规模,在数学推理(AIME 24 - 25)和代码竞赛(LiveCodeBench v5)公开测评集上,它可是展现出了 “以小博大” 的实力,成功超越了 OpenAI 的闭源推理模型 o1 - mini 和阿里 Qwen 更大规模的开源推理模型 QwQ - 32B - Preview。在相同强化学习训练数据情况下,MiMo - 7B - RL 在数学和代码推理任务上的表现同样可圈可点,分数超过 DeepSeek - R1 - Distill - 7B 和 Qwen2.5 - 32B。
二、技术创新,预训练与后训练双管齐下
MiMo 推理能力的提升得益于预训练和后训练阶段多层面的创新。预训练阶段,团队着重挖掘富推理语料,合成了约 200B tokens 的推理数据,还采用三阶段数据混合策略,逐步提升训练难度,让模型见识到更多推理模式。受 DeepSeek - V3 启发,将多 token 预测作为额外训练目标,增强模型性能并加速推理。后训练阶段,通过提出 Test Difficulty Driven Reward 缓解困难算法问题中的奖励稀疏问题,引入 Easy Data Re - Sampling 策略稳定 RL 训练。同时,设计的 Seamless Rollout 系统,让 RL 训练加速 2.29 倍,验证加速 1.96 倍。
三、模型多样,开源助力开发者
小米大模型 Core 团队这次一口气开源了 4 款 MiMo - 7B 模型,包括基础模型 MiMo - 7B - Base、监督微调模型 MiMo - 7B - SFT、基于基础模型训练的强化学习模型 MiMo - 7B - RL 和基于 SFT 模型训练的强化学习模型 MiMo - 7B - RL - Zero。这些模型均已在 Hugging Face 平台上架,代码库采用 Apache2.0 许可证授权,全球开发者可免费使用,尽情探索其在不同领域的应用潜力。
四、广泛应用,拓展 AI 落地场景
从小米的招聘详情中,我们可以窥见 MiMo 未来的一些应用方向,智能门锁、智能音箱、智能招聘、AI 面试、AI 会议助理、AI 办公助手、智能客服、智能审核等,大多与小米现有业务或产品紧密相关。凭借其 7B 参数规模小,可在端侧设备本地运行的优势,有望为用户带来更便捷、高效且个性化的 AI 体验。
小米开源 Xiaomi MiMo 大模型,不仅彰显了其在人工智能领域的技术实力,更体现了其推动行业发展、与全球开发者共享技术成果的决心。相信在 MiMo 的助力下,人工智能将在更多领域实现创新突破,为人们的生活带来更多惊喜与改变。让我们拭目以待,看小米在 AI 赛道上继续驰骋,创造更多精彩。