小米开源首个推理大模型Xiaomi MiMo,7B 参数超越 OpenAI o1-mini

2025年4月30日,小米宣布开源其首个专注于推理的大模型Xiaomi MiMo。这一仅7B参数的模型,在数学推理(如AIME 2024-2025测评集)与代码竞赛(LiveCodeBench v5)中,以更小的规模超越了OpenAI闭源的o1-mini和阿里Qwen-32B-Preview等对手。这一突破不仅标志着小米在AI大模型领域的快速崛起,更揭示了小模型在垂直领域的巨大潜力。

技术突破:从预训练到后训练的全链路创新

MiMo的研发由小米新成立的“大模型Core团队”主导,其核心目标是通过优化模型架构和训练策略,实现高效推理能力。具体技术亮点包括:

预训练阶段:数据与算法的双重革新

富推理语料挖掘:团队通过筛选和合成约200B tokens的推理数据,覆盖数学、编程、逻辑分析等领域,确保模型在早期阶段即接触多样化的问题模式。

三阶段渐进训练:采用分阶段难度递增的训练策略,总训练量达25T tokens。这种设计使模型逐步适应复杂任务,避免早期过拟合。

后训练阶段:强化学习的稳定性与效率

Test Difficulty Driven Reward算法:针对困难问题中的奖励稀疏问题,动态调整奖励机制,提升模型在挑战性任务中的表现。

Seamless Rollout系统:通过优化强化学习框架,训练速度提升2.29倍,验证效率提高1.96倍,显著降低计算成本。

性能对比:小模型的“越级挑战”

MiMo的7B参数规模虽远小于阿里Qwen-32B-Preview,但在多项测评中表现优异:

数学推理:在AIME 2024-2025测试中,MiMo的得分超越o1-mini,尤其是在奥赛级题目中展现了更强的解题能力。

代码生成:LiveCodeBench v5的评测结果显示,MiMo在生成效率与准确性上接近Claude 3.5 Sonnet,而成本仅为o1-mini的1/3。

相比之下,OpenAI的o1-mini虽在STEM任务中表现突出,但其局限性明显:仅支持文本输入、缺乏多模态能力,且API成本高昂(输入每百万token 15美元,输出60美元)。而MiMo的开源特性允许开发者免费使用并优化,进一步降低了应用门槛。

行业影响:开源生态与推理模型的未来

开源战略的深

小米近年来持续加码开源生态,2024年发布的Xiaomi Vela物联网系统与HA米家官方集成,已吸引全球开发者参与。MiMo的开源延续了这一策略,有望推动AI推理技术的普惠化,尤其在智能家居、自动驾驶等小米核心业务中实现深度整合。

MiMo全系列模型均已开源

小模型的崛起趋势

MiMo的成功与微软的rStar-Math方法(通过蒙特卡洛树搜索提升小模型性能)不谋而合。两者均证明:在固定算力下,小模型通过算法优化可在特定领域超越大模型。这或将颠覆传统“参数至上”的研发逻辑,推动行业向轻量化、垂直化转型。

挑战与展望

尽管MiMo表现亮眼,其仍需面对以下挑战:

多模态能力缺失:当前版本仅支持文本输入,而o1系列已在规划图像与文件处理功能。

安全性与幻觉问题:与o1类似,MiMo可能因强化学习机制产生隐蔽性错误,需进一步引入安全对齐策略。

未来,随着小米AI实验室的持续投入(如GPU万卡集群建设)及人才引进(如DeepSeek-V2开发者罗福莉加盟),MiMo有望迭代为支持多模态、更低成本的通用推理引擎,推动AI从“数据驱动”向“思维驱动”跃迁。

结语

Xiaomi MiMo的发布不仅是小米技术实力的体现,更是AI推理领域的一次范式革新。通过开源共享,小米正将自身定位为全球AI生态的关键参与者。在OpenAI与微软等巨头的竞争格局中,这场以小博大的技术突破,或许预示着一个更开放、更高效的AI未来。

📌 相关推荐

碾压 OpenAI,DeepSeek-R1 发布!如何在本地实现 DeepSeek?

0元本地部署!体验 OpenAI 价值20000美金/月的博士级智能体

更上层楼!仅用2GB资源,让最火的DeepSeek-R1在本机上奔跑!

再上层楼,让DeepSeek-R1在16G内存,无GPU的Windows笔记本上本地运行!

月上西楼!一行命令让本地大模型学会 DeepSeek 的深度思考!

👇点击阅读原文,获取开源地址

🚀帮我们点亮一颗🌟,愿您的开发之路星光璀璨

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值