阿里 Qwen2.5 爆了,登顶全球第一,遥遥领先...

短短一年多时间,国产自研大模型已百花齐放,其中阿里云通义千问可谓一枝独秀,在众多开源和闭源模型评测中,几度登顶,成为中国Ai大模型领头羊。其率先提出的MaaS(模型即服务),推动Ai应用快速落地国内,也正在实现。

小编早在几个月前,亲测过通义千问模型的多个不同版本,包括Qwen1.5和2.0等,并提供了本地搭建部署,和阿里云百炼平台调用Api等教程。感兴趣的小伙伴可以去看下:

现在阿里云通义千问又更新了,Qwen2.5,在9月下旬的云栖大会上刚刚发布,距离上一代也仅仅过了3个月,通义的迭代速度让其他企业也是望尘莫及。而在众多评测中,也已遥遥领先国内其他大模型。下面我们看看阿里云通义Qwen在性能和生态上是如何在全球开源大模型领域后来居上的。

1

最强开源模型

在性能上,相比上一代模型,通义千问Qwen2.5模型训练参数量更大,全系列都在18T tokens数据上进行预训练,整体性能提升18%以上,拥有更多的知识、更强的编程和数学理解能力。

同时,Qwen2.5拥有强大的语言能力,支持多达29种以上语言;并且支持高达128KB的上下文长度,可生产最多8K的内容;另外本次开源的Qwen2.5同样也有多个不同尺寸(0.5B、1.5B、3B、7B、14B、32B、72B,后面我们会部署测试)。

在专项模型编程Qwen2.5-Coder和数学Qwen2.5-Math也都比前一代提升了许多。

Qwen2.5-72B是目前Qwen2.5的旗舰模型。其在MMLU-rudex基准(考察通用知识)、MBPP 基准(考察代码能力)和MATH基准(考察数学能力)等十多个基准测评中的得分高达86.8、88.2、83.1,表现也都超越Llama3.1-405B。在全球开源大模型的比拼中,摘得桂冠,成为了当之无愧的全球最强开源模型

图片

Qwen2.5表现超越Llama3.1-405B

在生态上,通义从零起步、开疆拓土,与海内外的开源社区、生态伙伴、开发者共建生态网络,截至2024年9月中旬,通义千问开源模型下载量突破4000万,Qwen系列衍生模型总数超过7.43万个,成为世界最大的生成式语言模型族群。

图片

HuggingFace数据显示,Qwen系列原生模型和衍生模型总数超过5万个

2

Qwen2.5强势霸榜

除了开源领域,在全球大模型领域,通义也强势霸榜。

Qwen2.5开源短短一周时间,便迅速占领了各大测试榜单,实力吊打全球各大开源模型。

  • Chatbot Arena:榜单全球前十

图片

国内仅阿里云Qwen一家

Chatbot Arena是世界顶级大模型的最重要竞技场,Qwen2.5发布一周迅速进榜Top10,旗舰模型Qwen2.5-72B-Instruct得分位列LLM榜单第10,居于OpenAI的o1、GPT-4o等模型之后,是得分最高的中国大模型。同时,视觉语言模型Qwen2-VL-72B-Instruct闯入Vision榜单第九,略逊于GPT-4o、Gemini-1.5-Pro等闭源模型,是成绩最好的开源模型,此前Qwen系列已有多款开源模型闯入Chatbot Arena榜单。

  • Artificial Analysis:又强又便宜

图片

Artificial Analysis一家专注于AI模型和API独立分析的机构,他表示:Qwen2.5-72B在他们的测评基准上表现优异,整体超越Llama 3.1 -405B,是得分最高的开源大模型,而且Qwen2.5-72B的代码和数学能力足以挑战GPT-4o

该机构同时表示,由于Qwen2.5-72B的参数规模比Llama 3.1 -405B小得多,Qwen2.5-72B在同样的硬件条件下可以跑得更快

  • ZeroEval:最强开源模型

图片

ZeroEval是个评估语言模型的统一框架,以零样本的方式提示 LM,并指示它们结构化格式输出推理步骤和最终答案。在ZeroEval榜单上,Qwen2.5-72B-Instruct击败Llama的405B模型,成为得分最高的开源大模型

  • LiveBench:Qwen2.5编码能力超出o1

图片

在LiveBench基准的最新榜单上,Qwen2.5-72B-Instruct的代码能力得分超过了o1。

可以看出,在海内外的的大量评测机构眼中,Qwen2.5已经是明星级产品,迭代速度快,发展势头猛,更是国内的最强大模型。

那么作为开发者,如何在工作中使用通义Qwen2.5呢?并基于该开源大模型做一款自己的产品呢?下面提供三种体验和调用Qwen2.5大模型的方法。

3

如何体验和调用Qwen2.5

1、本地部署

之前我们介绍过Qwen1.5和2.0的本地部署,今天我们再次部署下,实测下Qwen2.5,想要本地部署,测试的小伙伴,可以看下之前的部署流程,很简单。

这里还是通过Ollama工具来安装模型,首先进入到官网,搜索「Qwen」,可以看到最新模型,点击进去,可以看到不同尺寸大小的模型,其中72B也是本次的旗舰版,但是考虑电脑存储大小,我们本次安装测试Qwen2.5-7B.

  • 官网:https://ollama.com

  • Github:https://github.com/ollama/ollama

图片

图片

直接打开终端,直接执行如下命令:

ollama run qwen2.5:7b

图片

安装完毕,启动Docker,浏览器访问:http://localhost:3000/auth/,进入Web Ui页面,就可以提问了,界面比较简洁。

建议大家可以本地部署下,这样每次模型更新,我们都可以第一时间免费安装体验。并且使用非常方便,也不容担心数据安全性问题。

图片

2、百炼平台

百炼平台之前我们也有介绍过,百炼可以提供多种业务场景,我们可以在上面训练自己的模型,创建应用,搭建知识库,上传自定义插件等等,更灵活,更高效的开发一些基于大模型的定制化的应用产品,快速嵌入到我们业务中。目前Qwen2.5也已经上架了百炼平台。大家可以自己去体验!

图片

3、通义官方注册

网址:https://tongyi.aliyun.com/

图片

手机注册就可以免费体验了,并且可以创建自己的Ai智能体,操作十分方便。

4

模型测试

下面我们从语义理解、文学知识、数学计算、天文学知识、物理学知识、英语阅读理解,编程等多个方面来测试,作为对比,我们选择ChatGPT-4o和通义Qwen2.5比较。

下面是具体的题目测试:

1、两个男人正常交谈,其中一个男人夸赞对方办事能力强,对方回答“哪里,哪里”。这里的“哪里,哪里”是什么意思?

A.讲话十分含糊不清。

B.要求说出具体的优点。

C.表达自己的谦虚。

D.挑衅对方。

通义Qwen2.5回答:

图片

ChatGPT-4o回答:

图片

2、选出下列句子中成语使用错误的一项

A.这个项目时间紧任务重,大家都在马不停蹄地奔波劳碌。

B.他常常口是心非,让人难以相信他说的话。

C.两人是同学三年,一直保持着良好的关系,相互尊重、相敬如宾。

D.当地突发大火,整个村庄都鸡犬不宁局势十分危急。

通义Qwen2.5回答:

图片

ChatGPT-4o回答:

图片

3、百货公司托搬运公司运送1000个玻璃花瓶,每个玻璃花瓶的运费是1元5角,如果打破一个,这一个不但不支付运费,搬运公司还要赔偿9元5角.百货公司最后付了1456元.搬运过程中一共打破了几个花瓶?

通义Qwen2.5回答:

图片

ChatGPT-4o回答:

图片

4、以下天文学常识题目,哪一个是错误的? 

A.太阳系是指由太阳和围绕着它运行的八大行星、矮行星、卫星、小行星带和彗星组成的一个行星系统。

B.卫星是指绕行星或其他天体运动的天体。

C.彗星是指太阳系中一种较小的天体,其核心由冰和尘埃组成。

D.按一般的天体归类方法,月球属于行星。

通义Qwen2.5回答:

图片

ChatGPT-4o回答:

评测内容通义Qwen2.5ChatGPT-4o
语义理解正确错误
文学知识正确正确
数学计算正确正确,通过编程解决
天文学知识正确正确
物理知识正确正确
英语阅读正确正确
编程正确正确

由于文章篇幅问题,这里不在一一展示,通过整体测试结果:Qwen2.5和ChatGPT-4o除了在中文上表现不一致之外,其他回答都是一样的,这也和上面各大更专业的测评机构的测试结果相符合,通义Qwen2.5的能力已经达到了ChatGPT-4o的水平,同时,在中文理解方面更强,这也再次证明了国产大模型的先天性优势。

5

总结

阿里云通义千问无疑是目前国内开源大模型的领导者,也深受企业和开发者的喜爱。

最后,祝愿国产大模型越来越好,也希望越来越多的企业能有阿里的担当和前瞻,把核心技术掌握在自己人手中。

### 阿里Qwen 2.5 接入 WPS 文档编辑器集成方案 #### API接口使用教程 为了实现阿里Qwen 2.5与WPS文档编辑器的集成,开发者需遵循特定API接口指南来完成对接工作。此过程涉及获取必要的认证凭证以及调用相应的服务端口。 #### 获取认证凭证 在开始之前,确保已注册并登录至阿里云平台账户。通过访问控制台创建应用以获得`AccessKey ID` 和 `AccessKey Secret`,这是用于身份验证的重要参数[^1]。 #### 安装依赖库 对于Python环境而言,推荐安装官方提供的SDK以便简化开发流程: ```bash pip install aliyun-python-sdk-core-v3 ``` 上述命令会下载适用于Python的应用程序编程接口软件包,从而方便后续操作中的请求发送和响应处理[^2]。 #### 初始化客户端实例 利用所取得的身份验证信息初始化Client对象,这一步骤是发起任何有效请求的前提条件之一。 ```python from aliyunsdkcore.client import AcsClient client = AcsClient( '<your-access-key-id>', '<your-access-key-secret>', 'cn-hangzhou' # 地域ID, 可根据实际需求调整 ) ``` 此处替换占位符为真实的密钥数据,并指定合适的地域节点以减少延迟时间[^3]。 #### 调用具体功能 针对不同业务场景下的需求,可以查阅官方文档找到对应的方法名称及其参数列表。例如,要查询模型版本状态可执行如下代码片段: ```python request = QwenVersionRequest.QwenVersionRequest() response = client.do_action_with_exception(request) print(response.decode()) ``` 这段脚本展示了如何构建一个关于询问Qwen大模型版本详情的服务请求,并打印返回的结果字符串[^4]。 请注意,在真实项目部署过程中还需要考虑错误捕获机制、日志记录等功能模块的设计;同时也要关注目标办公软件本身开放的能力范围,确保双方能够良好协作达成预期效果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值