阿里 Qwen2.5 爆了，登顶全球第一，遥遥领先...

最新推荐文章于 2025-02-15 19:52:41 发布

许泽宇的技术分享

最新推荐文章于 2025-02-15 19:52:41 发布

阅读量526

点赞数

文章标签：人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=MzkxODYyNzE3NA==&mid=2247485408&idx=1&sn=53a1646d2a90da883c9f24955f6f06eb&chksm=c1af31e9f6d8b8ff51469b200ce6bb588623092216f06de0474ad0141b098a58e4c51d29ce26&token=593492258&lang=zh_CN#rd

版权

短短一年多时间，国产自研大模型已百花齐放，其中阿里云通义千问可谓一枝独秀，在众多开源和闭源模型评测中，几度登顶，成为中国Ai大模型领头羊。其率先提出的MaaS（模型即服务），推动Ai应用快速落地国内，也正在实现。

小编早在几个月前，亲测过通义千问模型的多个不同版本，包括Qwen1.5和2.0等，并提供了本地搭建部署，和阿里云百炼平台调用Api等教程。感兴趣的小伙伴可以去看下：

现在阿里云通义千问又更新了，Qwen2.5，在9月下旬的云栖大会上刚刚发布，距离上一代也仅仅过了3个月，通义的迭代速度让其他企业也是望尘莫及。而在众多评测中，也已遥遥领先国内其他大模型。下面我们看看阿里云通义Qwen在性能和生态上是如何在全球开源大模型领域后来居上的。

最强开源模型

在性能上，相比上一代模型，通义千问Qwen2.5模型训练参数量更大，全系列都在18T tokens数据上进行预训练，整体性能提升18%以上，拥有更多的知识、更强的编程和数学理解能力。

同时，Qwen2.5拥有强大的语言能力，支持多达29种以上语言；并且支持高达128KB的上下文长度，可生产最多8K的内容；另外本次开源的Qwen2.5同样也有多个不同尺寸（0.5B、1.5B、3B、7B、14B、32B、72B，后面我们会部署测试）。

在专项模型编程Qwen2.5-Coder和数学Qwen2.5-Math也都比前一代提升了许多。

Qwen2.5-72B是目前Qwen2.5的旗舰模型。其在MMLU-rudex基准（考察通用知识）、MBPP 基准（考察代码能力）和MATH基准（考察数学能力）等十多个基准测评中的得分高达86.8、88.2、83.1，表现也都超越Llama3.1-405B。在全球开源大模型的比拼中，摘得桂冠，成为了当之无愧的全球最强开源模型。

Qwen2.5表现超越Llama3.1-405B

在生态上，通义从零起步、开疆拓土，与海内外的开源社区、生态伙伴、开发者共建生态网络，截至2024年9月中旬，通义千问开源模型下载量突破4000万，Qwen系列衍生模型总数超过7.43万个，成为世界最大的生成式语言模型族群。

HuggingFace数据显示，Qwen系列原生模型和衍生模型总数超过5万个

Qwen2.5强势霸榜

除了开源领域，在全球大模型领域，通义也强势霸榜。

Qwen2.5开源短短一周时间，便迅速占领了各大测试榜单，实力吊打全球各大开源模型。

Chatbot Arena：榜单全球前十

国内仅阿里云Qwen一家

Chatbot Arena是世界顶级大模型的最重要竞技场，Qwen2.5发布一周迅速进榜Top10，旗舰模型Qwen2.5-72B-Instruct得分位列LLM榜单第10，居于OpenAI的o1、GPT-4o等模型之后，是得分最高的中国大模型。同时，视觉语言模型Qwen2-VL-72B-Instruct闯入Vision榜单第九，略逊于GPT-4o、Gemini-1.5-Pro等闭源模型，是成绩最好的开源模型，此前Qwen系列已有多款开源模型闯入Chatbot Arena榜单。

Artificial Analysis：又强又便宜

Artificial Analysis一家专注于AI模型和API独立分析的机构，他表示：Qwen2.5-72B在他们的测评基准上表现优异，整体超越Llama 3.1 -405B，是得分最高的开源大模型，而且Qwen2.5-72B的代码和数学能力足以挑战GPT-4o。

该机构同时表示，由于Qwen2.5-72B的参数规模比Llama 3.1 -405B小得多，Qwen2.5-72B在同样的硬件条件下可以跑得更快。

ZeroEval：最强开源模型

ZeroEval是个评估语言模型的统一框架，以零样本的方式提示 LM，并指示它们结构化格式输出推理步骤和最终答案。在ZeroEval榜单上，Qwen2.5-72B-Instruct击败Llama的405B模型，成为得分最高的开源大模型。

LiveBench：Qwen2.5编码能力超出o1

在LiveBench基准的最新榜单上，Qwen2.5-72B-Instruct的代码能力得分超过了o1。

可以看出，在海内外的的大量评测机构眼中，Qwen2.5已经是明星级产品，迭代速度快，发展势头猛，更是国内的最强大模型。

那么作为开发者，如何在工作中使用通义Qwen2.5呢？并基于该开源大模型做一款自己的产品呢？下面提供三种体验和调用Qwen2.5大模型的方法。

如何体验和调用Qwen2.5

1、本地部署

之前我们介绍过Qwen1.5和2.0的本地部署，今天我们再次部署下，实测下Qwen2.5，想要本地部署，测试的小伙伴，可以看下之前的部署流程，很简单。

阿里通义千问本地部署，搭建可视化，彻底爆了！

这里还是通过Ollama工具来安装模型，首先进入到官网，搜索「Qwen」，可以看到最新模型，点击进去，可以看到不同尺寸大小的模型，其中72B也是本次的旗舰版，但是考虑电脑存储大小，我们本次安装测试Qwen2.5-7B.

官网：https://ollama.com
Github：https://github.com/ollama/ollama

直接打开终端，直接执行如下命令：

ollama run qwen2.5:7b

安装完毕，启动Docker，浏览器访问：http://localhost:3000/auth/，进入Web Ui页面，就可以提问了，界面比较简洁。

建议大家可以本地部署下，这样每次模型更新，我们都可以第一时间免费安装体验。并且使用非常方便，也不容担心数据安全性问题。

2、百炼平台

百炼平台之前我们也有介绍过，百炼可以提供多种业务场景，我们可以在上面训练自己的模型，创建应用，搭建知识库，上传自定义插件等等，更灵活，更高效的开发一些基于大模型的定制化的应用产品，快速嵌入到我们业务中。目前Qwen2.5也已经上架了百炼平台。大家可以自己去体验！

阿里云，又一款神器爆了，百炼平台！！

3、通义官方注册

网址：https://tongyi.aliyun.com/

手机注册就可以免费体验了，并且可以创建自己的Ai智能体，操作十分方便。

模型测试

下面我们从语义理解、文学知识、数学计算、天文学知识、物理学知识、英语阅读理解，编程等多个方面来测试，作为对比，我们选择ChatGPT-4o和通义Qwen2.5比较。

下面是具体的题目测试：

1、两个男人正常交谈，其中一个男人夸赞对方办事能力强，对方回答“哪里，哪里”。这里的“哪里，哪里”是什么意思?

A.讲话十分含糊不清。

B.要求说出具体的优点。

C.表达自己的谦虚。

D.挑衅对方。

通义Qwen2.5回答：

ChatGPT-4o回答：

2、选出下列句子中成语使用错误的一项

A.这个项目时间紧任务重，大家都在马不停蹄地奔波劳碌。

B.他常常口是心非，让人难以相信他说的话。

C.两人是同学三年，一直保持着良好的关系，相互尊重、相敬如宾。

D.当地突发大火，整个村庄都鸡犬不宁局势十分危急。

通义Qwen2.5回答：

ChatGPT-4o回答：

3、百货公司托搬运公司运送1000个玻璃花瓶,每个玻璃花瓶的运费是1元5角,如果打破一个,这一个不但不支付运费,搬运公司还要赔偿9元5角.百货公司最后付了1456元.搬运过程中一共打破了几个花瓶?

通义Qwen2.5回答：

ChatGPT-4o回答：

4、以下天文学常识题目，哪一个是错误的?

A.太阳系是指由太阳和围绕着它运行的八大行星、矮行星、卫星、小行星带和彗星组成的一个行星系统。

B.卫星是指绕行星或其他天体运动的天体。

C.彗星是指太阳系中一种较小的天体，其核心由冰和尘埃组成。

D.按一般的天体归类方法，月球属于行星。

通义Qwen2.5回答：

ChatGPT-4o回答：

评测内容	通义Qwen2.5	ChatGPT-4o
语义理解	正确	错误
文学知识	正确	正确
数学计算	正确	正确，通过编程解决
天文学知识	正确	正确
物理知识	正确	正确
英语阅读	正确	正确
编程	正确	正确

由于文章篇幅问题，这里不在一一展示，通过整体测试结果：Qwen2.5和ChatGPT-4o除了在中文上表现不一致之外，其他回答都是一样的，这也和上面各大更专业的测评机构的测试结果相符合，通义Qwen2.5的能力已经达到了ChatGPT-4o的水平，同时，在中文理解方面更强，这也再次证明了国产大模型的先天性优势。

总结

阿里云通义千问无疑是目前国内开源大模型的领导者，也深受企业和开发者的喜爱。

最后，祝愿国产大模型越来越好，也希望越来越多的企业能有阿里的担当和前瞻，把核心技术掌握在自己人手中。