[250507] 小米发布首个推理模型 MiMo,70亿参数展现卓越性能

小米重磅发布:首个推理大模型MiMo开源,70亿参数展现卓越性能

小米近日正式发布了其首款针对推理(Reasoning)任务而设计的开源大型语言模型——Xiaomi MiMo。该模型拥有70亿参数,旨在攻克当前预训练模型在推理能力方面的瓶颈,探索如何更有效地激发模型的深层推理潜能。MiMo的推出,标志着小米在人工智能领域,特别是在提升模型数学推理和代码生成能力方面迈出了重要一步。

MiMo模型的显著优势

根据小米官方介绍,Xiaomi MiMo模型在多个权威公开测评中表现突出:

  • 在数学推理(AIME24-25)和代码竞赛(LiveCodeBench v5)的评测中,MiMo以其70亿参数的规模,性能超越了OpenAI的闭源推理模型o1-mini以及阿里巴巴的开源推理模型QwQ-32B-Preview。
  • 在与近期热门的DeepSeek-R1等模型对比中,MiMo-7B在相同的强化学习训练数据条件下,其在数学与代码领域的推理能力显著领先于现有的经典开源32B模型,如DeepSeek-R1-Distill-7B和Qwen2.5-32B。

这些成绩充分展示了MiMo模型在推理任务上的优越性。

独特的训练方法驱动能力提升

MiMo模型推理能力的显著提升,得益于其在预训练与后训练阶段的多层面创新:

  • 预训练阶段:通过整合丰富的推理语料,合成了约200B tokens的推理数据。训练过程中采用了三阶段训练方法,逐步增加训练难度,总计训练了25T tokens,以确保模型在复杂推理任务上的稳健表现。
  • 后训练阶段:聚焦于高效且稳定的强化学习算法和框架。引入了“测试难度驱动奖励”(Test Difficulty Driven Reward)策略,有效解决了困难算法问题中奖励稀疏的挑战。同时,采用“简单数据重采样”(Easy Data Re-Sampling)策略,提升了强化学习训练的稳定性和有效性。为加速训练,小米还设计了无缝回放系统,使RL训练速度提高了2.29倍,验证速度提升了1.96倍。

全面开源

小米已将MiMo全系列模型在HuggingFace平台全面开源,方便广大用户和研究者访问和使用。

小米表示,MiMo是其新成立的大模型核心团队的初步尝试。

来源:
https://www.aibase.com/zh/news/17705

更多内容请查阅 : blog-250507

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值