国产模型再秀硅谷!阿里Qwen2.5-Max数学、编程能力全球第一
DLNLP 深度学习自然语言处理 2025年02月07日 12:18 江苏
春节期间,咱们国产AI大模型就给全球网友送上了一份“见面礼”——阿里巴巴的 Qwen2.5-Max 正式登顶 中国最强,更是在 Chatbot Arena全球排行榜 上杀进 前十,超越DeepSeek V3、o1-mini、Claude-3.5-Sonnet等劲敌,以 1332分 牢牢占据 全球第七 的位置。
原创:深度学习自然语言处理 公众号
更炸裂的是,在 数学和编程能力 上,Qwen2.5-Max 直接封神,稳坐全球第一。看来以后谁再说“大模型不会做数学题”,Qwen2.5-Max 可要第一个跳出来表示不服了!
截取自Chatbot Arena LLM LeaderBoard https://lmarena.ai/?leaderboard
全球盲测,真刀真枪干出来的成绩!
这次Qwen2.5-Max的成绩不是“自家说了算”,而是由全球知名的 Chatbot Arena 榜单给出的权威认证!
Chatbot Arena是由LMSYS Org推出的大模型性能测试平台,全球190多个大模型在这里公平竞技,通过用户的真实体验投票来决定最终排名。
换句话说,Qwen2.5-Max 这次是靠 真实用户的盲测投票 硬生生打上去的,没用一点“PPT能力”!Chatbot Arena官方甚至都惊了,直接发推称:
Alibaba's Qwen-Max is strong across domains. Especially in technical ones (Coding, Math, Hard Prompts).
翻译过来就是:阿里巴巴的Qwen2.5-Max在多个领域表现强劲,尤其是在编程、数学和硬提示词理解上。
这就相当于官方盖章认证,Qwen2.5-Max 在技术能力上,已经稳稳坐在全球第一梯队了!
Qwen2.5-Max:谁还不是个“卷王”呢?
在 AI 这个“谁更聪明”的世界里,Qwen2.5-Max 毫不客气地站了出来,向各路高手发起挑战。经过一轮实战 PK,它的表现可以用两个字概括:能打!
模型 PK 赛:Qwen2.5-Max 谁都不怵
官方选取了多个硬核测试,包括:
-
MMLU-Pro(大学生水平考核,学术硬实力比拼)
-
LiveCodeBench(编程能力测试,代码实力见真章)
-
LiveBench(综合能力挑战,全能王之争)
-
Arena-Hard(谁更像人类,谁更受欢迎)
比完一圈,Qwen2.5-Max 稳超 DeepSeek V3,在多个关键测试中给出了炸裂表现,尤其在 MMLU-Pro 这类高难度考试中,展现了超强实力!
Qwen2.5-Max位列LiveBench第9,同样斩获非推理模型的「中国模型冠军」。该榜单由Yann LeCun发起,被称为「全球首个无法被操纵的LLM基准测试」。
在指令模型对比中,Qwen2.5-Max 直接对上 GPT-4o、Claude-3.5-Sonnet、DeepSeek V3 等业界顶级选手,结果——DeepSeek V3 已被 Qwen2.5-Max 赶超,而面对其他大佬也毫不逊色,已经站在了“最强之列”! 🚀😎
基座模型:硬实力更能打!
在MMLU、C-Eval、Math等11项主流基座模型测评中,Qwen2.5-Max都超过了DeepSeek-V3和Llama3.1-405B。
全球开发者都炸锅了!
Qwen2.5-Max一出,全球AI社区直接炸裂,有网友兴奋地表示:
“终于可以跟ChatGPT说再见了!”
更有网友调侃,OpenAI或Anthropic的研究员打开Chatbot Arena榜单时可能的真实反应😂:
“先生,又有一个中国模型砸到脸上了!”
而在国内,很多开发者已经迫不及待地开始实测了。有人惊叹:
“代码能力太猛了,效果嘎嘎好”
还有人表示:
中国大模型过年了,太疯狂了
Qwen2.5-Max体验
如何使用Qwen2.5-Max
Qwen2.5-Max已经全面开放,企业可以在 阿里云百炼 直接调用API,开发者则可以在 Qwen Chat 平台免费体验。
体验地址Qwen Chat👉 https://chat.qwenlm.ai/
如果你是开发者,想让你的应用拥有全球最强的数学和编程能力,那就别犹豫了,赶紧去试试吧!
Qwen2.5-Max实测环节
这次是在QwenChat免费体验测试的Qwen2.5-max,QwenChat最大的亮点,就是它集多项功能于一身!
你可以直接在对话界面 切换不同模式,轻松实现:
-
图像生成 ️
-
代码编写
-
方案策划
-
视频创作
-
甚至 iMES (可能是指一些创新功能)
而 DeepSeek 目前还不具备这些“超能力”! 废话不多说,直接进入 实测环节!
-
复杂推理问答:双生子佯谬的分析全过程
现在假设地球上有一对双胞胎(双胞胎就表示年龄一样,先出来的称为哥哥),距离地球30光年的地方有一个相对地球静止的星球S,哥哥驾着飞船以0.995c的速度从地球飞向星球S,然后再以同样的速度返回地球,我们的问题就是要分析哥哥回到地球并着陆之后跟弟弟比一比年龄,到底谁大?大多少?
我们先用一个非常复杂的问题测试这款模型的综合能力
Qwen2.5-Max给出了直接复杂计算,涉及到狭义相对论中的时间膨胀效应(Time Dilation),答案是没问题的。
数学
-
代码能力测试1:使用 Artifacts 预览代码
请帮我使用JavaScript实现一个chess game
Qwen2.5-Max 生成 HTML 代码后,可以直接在界面右侧的 Artifacts (工件) 选项卡中 预览并运行游戏!
有点酷的,写代码的效果可见即所得,一直梦想想成为“全站工程师”的我,再也不发愁确实前端技能包了
-
代码能力测试2:3D建模脚本编写
为三个黄色球在球体内弹跳编写一个脚本。确保正确处理碰撞检测。缓慢旋转球体。确保球留在球体内。使用p5.js它来实现它
将写出来的代码复制到 p5.js Web Editor 中运行即可查看效果,没有bug,直接运行成功!
-
内容创作能力:提高写作效率
生成一篇 LinkedIn 文章,主题为“如何利用 AI 提高工作效率”。
生成速度特别快,内容风格和形式都兼顾到位,创作内容也排版成Markdown格式了,方便我们快速使用。
-
网站搭建能力:电商网站的首页制作
生成一个电商网站的首页,包含产品展示、购物车和结算功能。
要是本科的时候有这玩意,课程小作业都是分分钟的事情了哈哈
-
方案策划能力:旅游计划制定
制定一个泰国三日游计划
可以看到给出了非常细节,包括三天上下午,具体时间安排,以后可以直接当做贴心助手了。
-
数据分析(TXT2SQL):sql语句编写
有一个用户表userinfo,包括字段username,userid,birthday,salary, address. 有一个工作量表 workload,包括字段userid,workload,workdate. 另一个表是defect, 包括userid, defectnum,defectdate. 请找到最近五天工作量大于50并且缺陷数小于4的人的名字和地址。
-
数学能力:能够解决复杂数学问题
1个苹果=2个梨,3个梨=4个橙子,6个橙子=7个香蕉,56个香蕉等于多少个苹果?
这道题是数量关系,但是需要做公倍数的推理,定义为中等难度。
答案正确,是不是我们自己也得算一会?
我们再来一个高难度的几何题
一个三棱柱的上底和下底为两个等腰直角三角形,每个等腰三角形的直角边长为16。直棱柱的高度等于等腰直角三角形的斜边长度。求直棱柱的表面积。
答案正确,是不是感觉现在Qwen2.5-Max更上一层级了。
-
QwenChat支持更多玩法
QwenChat平台也提供了更多玩法,比如图像生成,视频生成,下面我们测试下Qwen 2.5 Max图像生成效果!
A bird with a lychee shell, A unique creature that combines the characteristics of birds and lychee fruits is presented in this image, This creature has a red spiky outer layer similar to the shell of a lychee, while its inner part is soft and white like real lychee flesh. The creature's mouth is black, and it seems to be looking sideways at something, The background is light blue, which contrasts sharply with the color of the creature.
通过我们几轮测试,可以看出来Qwen 2.5 Max 在内容创作、代码能力、网站搭建、图像生成、网页搜索等多个方面都展现出了强大的实力,以后我们又多了一个可靠的大模型选择,大家赶紧体验吧!
体验地址🚀:https://chat.qwenlm.ai/