反超 DeepSeek-V3,新发布的 Qwen2.5-Max 到底有多牛?

春节假期期间,除了万众瞩目的 DeepSeek 之外,还有一款模型的发布也不容忽视,它就是 Qwen2.5-Max

https://qwenlm.github.io/blog/qwen2.5-max/

该模型采用 MoE 架构,预训练数据量达 20 万亿 tokens,基座模型在 11 项基准测试中全面领先开源模型,指令模型则在多项任务中与 Claude-3.5-Sonnet 持平。

模型发布后,阿里巴巴港股在 2 月 3 日至 4 日期间上涨近 12%。市场普遍认为,Qwen2.5-Max 的性能是超越预期的。

虽然得知发布的时间很早,但由于适逢佳节,我们没有投入足够的时间去关注这款模型。不过!这两天 Qwen2.5-Max 登上某大模型盲测榜单全球前十,超越了 Claude-3.5-Sonnet、GPT-4o、DeepSeek-V3 等一众模型的消息,在圈内又掀起了一番热度,也让我们重新重视起了它。

**又一高光时刻
**

Qwen2.5-Max 在 Chatbot Arena 盲测榜单中以 1332 分位列全球第七,超越 DeepSeek V3、Claude-3.5-Sonnet 等国际主流模型。

Chatbot Arena 是业内非常权威且重磅的竞技平台,其含金量体现在:

1. 用户基数大:由于采用众包评估,数据量巨大,提供了高信度和高效度的评估结果。

2. 多维度评估:除了 Elo 评分外,还包括 MT-Bench、MMLU 等多种基准测试,提供了对模型性能的多角度理解。

3. 公信力:由于其开放、匿名的评测机制,避免了主观偏见,被视为一个相对公正的评估平台。

此外,诸多大佬曾经都引用、认可过该榜单。

1. OpenAI 的 Greg Brockman,在他被 OpenAI 开除前的最后一条 Twitter 上,他分享了Chatbot Arena的排行榜,显示 GPT-4-Turbo 超越了 GPT-4。

2. Andrej Karpathy,OpenAI 创始团队成员,在讨论大模型评测时特别提到他只相信两个基准:Chatbot Arena 和 r/LocalLlama。

3. Jan Leike,OpenAI 的超级对齐团队主管,提出了“评价比生成更容易”的理论,并认为 Chatbot Arena 的评测方式符合这种理念。

值得一提的是,官方还表示,Qwen2.5-Max 在数学、编程、硬提示(Hard Prompts)等专业领域表现尤为突出。在榜单中可以看到,Qwen2.5-Max 在数学和编程领域拿下了第一。

实测效果如何?

也是近段时间,阿里云上线了 QwenChat 平台,可以免费使用 Qwen 系列热门模型,还支持不同模型对战。

于是我们在 QwenChat 上进行了一番测试,来实际体验一下 Qwen2.5-Max 的魅力。

https://chat.qwenlm.ai/

我们先拿 2024 考研数学一的所有填空题进行了测试,Qwen2.5-Max 全部回答正确,且思路清晰,计算没有冗余。

今年,首个外国组合 OneRepublic 登上春晚,献唱了一首《Counting Star》,许多网友对这一信号和歌词做了有趣的解读。

我们就让 Qwen2.5-Max 尝试做了一个歌词翻译,先来考验下文学能力。细细看下来还是蛮信达雅的,不逊于春晚官方翻译的美感。

紧接着是一个逻辑推理相关的测试:有 23 枚硬币在桌上,10 枚正面朝上。蒙住你的眼睛(你无法分清正反),如何分成两组,让两组硬币正面朝上的一样多?Qwen2.5-Max 正确的回答出了最优解。

然后是编程算法测试,我们让 Qwen2.5-Max 生成了一个广度搜索算法的教学,效果很优雅。Qwen2.5-Max 是支持 Artifacts 的,通过 Qwen,可以实现交互式的展示搜索过程,并且实时解答。

还有编程开发测试,我们魔改了传统贪吃蛇游戏的规则,变成了双人竞技游戏,Qwen 正确生成代码并可以直接在线游玩。

最后,弱智吧问题、热门数字母个数的问题也不在话下。

国产大模型集体崛起

在榜单中,我们能清楚的看到,Qwen2.5-Max,DeepSeek-V3,还有智谱 GLM-4-Plus、阶跃星辰的 Step-2-16k-exp 纷纷上榜,名列前十。

Chatbot Arena 官方也表示:中美 AI 差距正在快速缩小。

这是一个令人激动的时间节点,Qwen2.5-Max 的发布与走红,不仅是阿里云的技术里程碑,更是中国在全球 AI 竞赛中确立话语权的关键一步。

这也不仅仅是一个个国产大模型的性能突破,也更折射出中国 AI 从“跟跑者”向“规则制定者”的跃迁逻辑。全球 AI 产业的天平正悄然倾斜,这场技术革命的涟漪正在重构资本流向、技术路径与国际话语权。

对于下一步规划,Qwen 模型团队在技术博客中写道:通过规模化强化学习技术的创新应用,我们致力于持续提升大语言模型的思维与推理能力,为实现模型智能超越人类认知边界开辟道路。

近段时间 DeepSeek 团队展示了从 V3 到 R1 的演进路径,其中 DeepSeek-R1-Zero 是一个通过大规模强化学习训练的模型,无需 SFT,即可具备较强的推理能力。DeepSeek 的思路是基于强大的基础模型衍生出专注于推理的模型,证明了强化学习在模型 Scaling 中的重要性。在保持基础模型通用能力的同时,针对复杂推理任务进行定向突破。

当强化学习的规模化效应叠加在优质基模之上,完全可能催生指数级的能力跃迁。因此,按照这个思路,我们更加期待基于 Qwen2.5-Max 开发的推理模型了!

我们相信,Qwen 等国产大模型,在接下来会带给我们更多惊喜。

一起期待,一起见证。

在这里插入图片描述

如何学习AI大模型?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值