[250507] 小米发布首个推理模型 MiMo，70亿参数展现卓越性能

x-cmd

于 2025-05-07 18:00:11 发布

阅读量469

点赞数 3

分类专栏： daily blog 文章标签：小米 MiMo 推理模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/edwinjhlee/article/details/147771405

版权

daily blog 专栏收录该内容

361 篇文章

订阅专栏

目录

- 小米重磅发布：首个推理大模型MiMo开源，70亿参数展现卓越性能

小米重磅发布：首个推理大模型MiMo开源，70亿参数展现卓越性能

小米近日正式发布了其首款针对推理（Reasoning）任务而设计的开源大型语言模型——Xiaomi MiMo。该模型拥有70亿参数，旨在攻克当前预训练模型在推理能力方面的瓶颈，探索如何更有效地激发模型的深层推理潜能。MiMo的推出，标志着小米在人工智能领域，特别是在提升模型数学推理和代码生成能力方面迈出了重要一步。

MiMo模型的显著优势

根据小米官方介绍，Xiaomi MiMo模型在多个权威公开测评中表现突出：

在数学推理（AIME24-25）和代码竞赛（LiveCodeBench v5）的评测中，MiMo以其70亿参数的规模，性能超越了OpenAI的闭源推理模型o1-mini以及阿里巴巴的开源推理模型QwQ-32B-Preview。
在与近期热门的DeepSeek-R1等模型对比中，MiMo-7B在相同的强化学习训练数据条件下，其在数学与代码领域的推理能力显著领先于现有的经典开源32B模型，如DeepSeek-R1-Distill-7B和Qwen2.5-32B。

这些成绩充分展示了MiMo模型在推理任务上的优越性。

独特的训练方法驱动能力提升

MiMo模型推理能力的显著提升，得益于其在预训练与后训练阶段的多层面创新：

预训练阶段：通过整合丰富的推理语料，合成了约200B tokens的推理数据。训练过程中采用了三阶段训练方法，逐步增加训练难度，总计训练了25T tokens，以确保模型在复杂推理任务上的稳健表现。
后训练阶段：聚焦于高效且稳定的强化学习算法和框架。引入了“测试难度驱动奖励”（Test Difficulty Driven Reward）策略，有效解决了困难算法问题中奖励稀疏的挑战。同时，采用“简单数据重采样”(Easy Data Re-Sampling)策略，提升了强化学习训练的稳定性和有效性。为加速训练，小米还设计了无缝回放系统，使RL训练速度提高了2.29倍，验证速度提升了1.96倍。

全面开源

小米已将MiMo全系列模型在HuggingFace平台全面开源，方便广大用户和研究者访问和使用。

HuggingFace链接：https://huggingface.co/XiaomiMiMo

小米表示，MiMo是其新成立的大模型核心团队的初步尝试。

来源：
https://www.aibase.com/zh/news/17705

更多内容请查阅 : blog-250507

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。