反超 DeepSeek-V3，新发布的 Qwen2.5-Max 到底有多牛？

最新推荐文章于 2025-02-27 19:53:15 发布

大模型老炮

最新推荐文章于 2025-02-27 19:53:15 发布

阅读量1.2k

点赞数 9

文章标签：人工智能大模型学习大模型入门 LLM Deepseek Qwen2.5

本文链接：https://blog.csdn.net/2401_85375151/article/details/145512712

版权

春节假期期间，除了万众瞩目的 DeepSeek 之外，还有一款模型的发布也不容忽视，它就是 Qwen2.5-Max。

https://qwenlm.github.io/blog/qwen2.5-max/

该模型采用 MoE 架构，预训练数据量达 20 万亿 tokens，基座模型在 11 项基准测试中全面领先开源模型，指令模型则在多项任务中与 Claude-3.5-Sonnet 持平。

模型发布后，阿里巴巴港股在 2 月 3 日至 4 日期间上涨近 12%。市场普遍认为，Qwen2.5-Max 的性能是超越预期的。

虽然得知发布的时间很早，但由于适逢佳节，我们没有投入足够的时间去关注这款模型。不过！这两天 Qwen2.5-Max 登上某大模型盲测榜单全球前十，超越了 Claude-3.5-Sonnet、GPT-4o、DeepSeek-V3 等一众模型的消息，在圈内又掀起了一番热度，也让我们重新重视起了它。

**又一高光时刻
**

Qwen2.5-Max 在 Chatbot Arena 盲测榜单中以 1332 分位列全球第七，超越 DeepSeek V3、Claude-3.5-Sonnet 等国际主流模型。

Chatbot Arena 是业内非常权威且重磅的竞技平台，其含金量体现在：

1. 用户基数大：由于采用众包评估，数据量巨大，提供了高信度和高效度的评估结果。

2. 多维度评估：除了 Elo 评分外，还包括 MT-Bench、MMLU 等多种基准测试，提供了对模型性能的多角度理解。

3. 公信力：由于其开放、匿名的评测机制，避免了主观偏见，被视为一个相对公正的评估平台。

此外，诸多大佬曾经都引用、认可过该榜单。

1. OpenAI 的 Greg Brockman，在他被 OpenAI 开除前的最后一条 Twitter 上，他分享了Chatbot Arena的排行榜，显示 GPT-4-Turbo 超越了 GPT-4。

2. Andrej Karpathy，OpenAI 创始团队成员，在讨论大模型评测时特别提到他只相信两个基准：Chatbot Arena 和 r/LocalLlama。

3. Jan Leike，OpenAI 的超级对齐团队主管，提出了“评价比生成更容易”的理论，并认为 Chatbot Arena 的评测方式符合这种理念。

值得一提的是，官方还表示，Qwen2.5-Max 在数学、编程、硬提示（Hard Prompts）等专业领域表现尤为突出。在榜单中可以看到，Qwen2.5-Max 在数学和编程领域拿下了第一。

实测效果如何？

也是近段时间，阿里云上线了 QwenChat 平台，可以免费使用 Qwen 系列热门模型，还支持不同模型对战。

于是我们在 QwenChat 上进行了一番测试，来实际体验一下 Qwen2.5-Max 的魅力。

https://chat.qwenlm.ai/

我们先拿 2024 考研数学一的所有填空题进行了测试，Qwen2.5-Max 全部回答正确，且思路清晰，计算没有冗余。

今年，首个外国组合 OneRepublic 登上春晚，献唱了一首《Counting Star》，许多网友对这一信号和歌词做了有趣的解读。

我们就让 Qwen2.5-Max 尝试做了一个歌词翻译，先来考验下文学能力。细细看下来还是蛮信达雅的，不逊于春晚官方翻译的美感。

紧接着是一个逻辑推理相关的测试：有 23 枚硬币在桌上，10 枚正面朝上。蒙住你的眼睛（你无法分清正反），如何分成两组，让两组硬币正面朝上的一样多？Qwen2.5-Max 正确的回答出了最优解。

然后是编程算法测试，我们让 Qwen2.5-Max 生成了一个广度搜索算法的教学，效果很优雅。Qwen2.5-Max 是支持 Artifacts 的，通过 Qwen，可以实现交互式的展示搜索过程，并且实时解答。

还有编程开发测试，我们魔改了传统贪吃蛇游戏的规则，变成了双人竞技游戏，Qwen 正确生成代码并可以直接在线游玩。

最后，弱智吧问题、热门数字母个数的问题也不在话下。

国产大模型集体崛起

在榜单中，我们能清楚的看到，Qwen2.5-Max，DeepSeek-V3，还有智谱 GLM-4-Plus、阶跃星辰的 Step-2-16k-exp 纷纷上榜，名列前十。

Chatbot Arena 官方也表示：中美 AI 差距正在快速缩小。

这是一个令人激动的时间节点，Qwen2.5-Max 的发布与走红，不仅是阿里云的技术里程碑，更是中国在全球 AI 竞赛中确立话语权的关键一步。

这也不仅仅是一个个国产大模型的性能突破，也更折射出中国 AI 从“跟跑者”向“规则制定者”的跃迁逻辑。全球 AI 产业的天平正悄然倾斜，这场技术革命的涟漪正在重构资本流向、技术路径与国际话语权。

对于下一步规划，Qwen 模型团队在技术博客中写道：通过规模化强化学习技术的创新应用，我们致力于持续提升大语言模型的思维与推理能力，为实现模型智能超越人类认知边界开辟道路。

近段时间 DeepSeek 团队展示了从 V3 到 R1 的演进路径，其中 DeepSeek-R1-Zero 是一个通过大规模强化学习训练的模型，无需 SFT，即可具备较强的推理能力。DeepSeek 的思路是基于强大的基础模型衍生出专注于推理的模型，证明了强化学习在模型 Scaling 中的重要性。在保持基础模型通用能力的同时，针对复杂推理任务进行定向突破。

当强化学习的规模化效应叠加在优质基模之上，完全可能催生指数级的能力跃迁。因此，按照这个思路，我们更加期待基于 Qwen2.5-Max 开发的推理模型了！

我们相信，Qwen 等国产大模型，在接下来会带给我们更多惊喜。

一起期待，一起见证。

在这里插入图片描述

如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述