国产之光!阿里 Qwen2 成全球开源大模型排行榜第一

fb9e95ab9a095ff5b7ad32c5bfec948b.jpeg

荣登榜首

2024年6月27日,阿里 Qwen2 成全球开源大模型排行榜第一,从此,在开源大模型领域,中国处于领导地位。

全球著名开源平台 huggingface 的联合创始人兼首席执行官 Clem 在社交平台宣布,阿里最新开源的 Qwen2-72B 指令微调版本,成为开源模型排行榜第一名

他表示,为了测试一个更公正和准确的开源大模型排名,团队使用了 300 块 H100 对目前全球 100 多个主流开源大模型,例如,Qwen2、Llama-3、mixtral、Phi-3等,在BBH、MUSR、MMLU-PRO、GPQA 等基准测试集上进行了全新评估。

结果显示,阿里云开源的通义 Qwen-2 72B 力压科技、社交巨头 Meta 的 Llama-3、法国著名大模型平台 Mistralai 的 Mixtral 成为新的王者,中国在全球开源大模型领域处于领导地位。

055a7887883d7bc39d70a0ed32c20be2.jpeg 17fe5aeb866190845d07de90c8c1d10d.jpeg

此前,360集团创始人、董事长周鸿祎发布视频,点赞开源的存在,同时,也祝贺阿里巴巴通义Qwen2大模型登上世界榜单第 1 名!让大模型从原子弹变成了茶叶蛋,让企业低成本使用,让大模型时代的工业革命能够发生。

48989f784e28d9e951c1bb041c42eeed.jpeg

值得注意的是,过去一年中,国产大模型只有 Qwen 多次冲进 LMSys 榜单,LMSys 官方也曾官方发推认证通义千问开源模型的实力。也就是说,在顶尖模型公司的竞争中,目前为止中国模型只有通义千问真正入局,能与头部厂商一较高下。

581b73a0c78e7db131f00f9a1095350f.jpeg

Qwen2 是什么?

Qwen2 是由阿里云通义千问团队开源的新一代大语言模型,此次迎来了从Qwen1.5到Qwen2的重大升级,主要包括:

  • 5个尺寸的预训练和指令微调模型, 包括Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B以及Qwen2-72B

  • 在中文英语的基础上,训练数据中增加了27种语言相关的高质量数据;

  • 多个评测基准上的领先表现;

  • 代码和数学能力显著提升;

  • 增大了上下文长度支持,最高达到128K tokens(Qwen2-72B-Instruct)。

模型基础信息

Qwen2 系列包含 5 个尺寸的预训练和指令微调模型,其中包括 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 和 Qwen2-72B。如下表所示:

模型Qwen2-0.5BQwen2-1.5BQwen2-7BQwen2-57B-A14BQwen2-72B
参数量0.49B1.54B7.07B57.41B72.71B
非 Embedding 参数量0.35B1.31B5.98B56.32B70.21B
GQATrueTrueTrueTrueTrue
Tie EmbeddingTrueTrueFalseFalseFalse
上下文长度32K32K128K64K128K

斩获多项世界冠军

Qwen2 到底有多强呢?让我们来回顾一下,Qwen2 发布以来取得的成绩。

2024 年 6 月 7 日, Qwen2 发布后在十几项国际权威测评中,一举斩获多项世界冠军

Qwen2-72B 在 MMLU、GPQA、HumanEval、GSM8K、BBH、MT-Bench、Arena Hard、LiveCodeBench 等国际权威测评中,均评分世界第一。

10f5c28a98444e4f30e359de80100d12.jpeg

美国最新开源榜单:全球第一

2024 年 6 月 14 日,Qwen2 拿下美国最新测评榜单开源大模型全球第一

Qwen2-72B 在图灵奖得主、Meta 首席 AI 科学家杨立昆(Yann LeCun)联合 Abacus.AI、纽约大学等机构推出全新的大模型测评基准 LiveBench AI 中,在开源大模型中排名世界第一,也是十榜单中唯一的开源大模型、唯一的中国大模型。

93df32d94eae8adb711d037c50abe657.jpeg!8cc507dd38437368729e19b916a5c629.jpeg

AI 高考全卷评测:排名第一,超越GPT-4o

2024 年 6 月 19 日,首个AI高考全卷评测结果发布,阿里通义 Qwen2 模型排名第一,超越 GPT-4o

上海人工智能实验室发布首个AI高考全卷评测结果,月初开源的阿里通义千问大模型 Qwen2-72B 排名第一,在语数外三科 420 分的满分中获得 303 分,高于OpenAI 的 GPT-4o 和上海人工智能实验室的书生·浦语2.0文曲星(InternLM2-20B-WQX)。

4345d67528ba746d6abeeb48bcd52036.jpeg

超越国产闭源大模型

上海人工智能实验室大模型测评榜单 Compass Arena 公布最新结果,阿里通义千问 Qwen2-72B 得分仅次于 GPT-4o,以 1 分之差排名第二,成为排名最高的开源大模型,总成绩超过文心 4.0、讯飞星火 3.5 等中国闭源大模型。Compass Arena 是由上海人工智能实验室推出的权威榜单,聚焦于中国主流大模型的能力测评。

f88bbd562f78b5183b7ef9dc06c67b19.jpeg

最后,希望阿里通义千问持续迭代,再创辉煌,推出更多高性能开源模型,造福全世界开发者!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
1. 智慧社区背景与挑战 随着城市化的快速发展,社区面临健康、安全、邻里关系和服务质量等多方面的挑战。华为技术有限公司提出智慧社区解决方案,旨在通过先进的数字化技术应对这些问题,提升城市社区的生活质量。 2. 技术推动智慧社区发展 技术进步,特别是数字化、无线化、移动化和物联化,为城市社区的智慧化提供了可能。这些技术的应用不仅提高了社区的运行效率,也增强了居民的便利性和安全性。 3. 智慧社区的核心价值 智慧社区承载了智慧城市的核心价值,通过全面信息化处理,实现对城市各个方面的数字网络化管理、服务与决策功能,从而提升社会服务效率,整合社会服务资源。 4. 多层次、全方位的智慧社区服务 智慧社区通过构建和谐、温情、平安和健康四大社区模块,满足社区居民的多层次需求。这些服务模块包括社区医疗、安全监控、情感沟通和健康监测等。 5. 智慧社区技术框架 智慧社区技术框架强调统一平台的建设,设立数据中心,构建基础网络,并通过分层建设,实现平台能力及应用的可持续长和扩展。 6. 感知统一平台与服务方案 感知统一平台是智慧社区的关键组部分,通过统一的RFID身份识别和信息管理,实现社区服务的智能化和便捷化。同时,提供社区内外监控、紧急救助服务和便民服务等。 7. 健康社区的构建 健康社区模块专注于为居民提供健康管理服务,通过整合医疗资源和居民接入,实现远程医疗、慢性病管理和紧急救助等功能,推动医疗模式从治疗向预防转变。 8. 平安社区的安全保障 平安社区通过闭路电视监控、防盗报警和紧急求助等技术,保障社区居民的人身和财产安全,实现社区环境的实时监控和智能分析。 9. 温情社区的情感沟通 温情社区着重于建立社区居民间的情感联系,通过组织社区活动、一键呼叫服务和互帮互助平台,增强邻里间的交流和互助。 10. 和谐社区的资源整合 和谐社区作为社会资源的整合协调者,通过统一接入和身份识别,实现社区信息和服务的便捷获取,提升居民生活质量,促进社区和谐。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值