通义千问 Qwen2,登顶国内第一大模型!

大家好,我是煎鱼。

7 月 9 日起,OpenAI 将正式终止对部分地区(包含中国)提供 API 服务,引起业内一片哗然,纷纷开始自检,找新的国内可用的国产化替代方案。

5adfd0c0c2dff16200b97e64c384947c.jpeg

此时我有一个朋友的 Boss,结合各家大模型的表现和价格(性价比),推荐了阿里云的通义千问。

尤其是提起最近新出的开源大模型 Qwen2 系列。非常强!今天特意了解了下,做一个快速的介绍分享。

通义千问 Qwen2

2024 年 6 月 7 日,通义千问正式发布了 Qwen2 系列,其包含 5 个尺寸的预训练和指令微调模型,分别是:

  • Qwen2-0.5B

  • Qwen2-1.5B

  • Qwen2-7B

  • Qwen2-57B-A14B

  • Qwen2-72B

其中最特别的是:Qwen2-72B,性能超过美国最强的开源模型 Llama3-70B,也在多个测评中超过文心 4.0、豆包 pro、混元 pro 等众多国内闭源大模型。

体验使用上,所有同学都可以在魔搭社区或 Hugging Face 免费下载通义千问最新开源模型。

Qwen-2开源地址:https://huggingface.co/Qwen/Qwen2-72B-Instruct

快速体验

大家如果想要方便一点的,也可以直接访问通义大模型官网:https://tongyi.aliyun.com/qianwen/ 。对外界面上提供的就是通义千问 2.5,可以直接免费体验。

百闻不如一见。我快速测试了几个 case。

1、写 SQL 语句:

c0ec67f7d5f5ad5b810853f0f1b50368.jpeg

2、写短视频剧本:

377abe4e43b3845c600355c458c4614b.jpeg

3、写工作周报:

a0f40fba9d7537a6a873ae1603766669.jpeg

整体几轮测试下来,通义千问在每轮的问答上,性能不错,回复速度很快。明显感觉比 GPT 快的多。

内容的有效性上,我个人觉得都挺不错。尤其是认真看了周报部分。通义千问现在已经很强了。这个场景下对于现实职场的适配度高。

大模型评测数据

个人的体验可能还是有限的。这里有一些业内专家对各大模型的评测。

可以参照看看,自行根据业务场景识别。

Qwen2-72B 开源模型第一

6 月 27 日,全球著名开源平台 huggingface 的联合创始人兼首席执行官 Clem 在社交平台宣布,阿里最新开源的 Qwen2-72B 指令微调版本,成为开源模型排行榜第一名。

08647b9a057b6ce36246b2755b937605.png

他表示,为了提供全新的开源大模型排行榜,使用了 300 块 H100 对目前全球 100 多个主流开源大模型,例如,Qwen2、Llama-3、mixtral、Phi-3 等,在 BBH、MUSR、MMLU-PRO、GPQA 等基准测试集上进行了全新评估。

ed4a1602d32ed831d4cc79ce340aa758.png

结果显示,阿里开源的 Qwen-2 72B 力压科技、社交巨头 Meta 的 Llama-3、法国著名大模型平台 Mistralai 的 Mixtral 成为新的王者,中国在全球开源大模型领域处于领导地位。

Qwen2 测评榜单国内第一

上海人工智能实验室大模型测评榜单 Compass Arena,最近公布了最新结果:

a3aa38b117244247f48068dc0f9896b6.png

Qwen2-72B 得分仅次于 GPT-4o,以 1 分之差排名第二,成为排名最高的开源大模型,总成绩超过文心 4.0、讯飞星火 3.5 等国内闭源大模型。

用户口碑

Qwen2的编码和推理能力比同等规模的 llama-3-8b 更好,无需专门训练即可编写俄罗斯方块游戏:

9b0058b2c2b7ea85fbc9da757a800eb6.png 4a9bc7145589d19856af677a281d0149.png

总结

讲了很多内容,可以看的出来通义千问在不断地持续进化,直至现在 Qwen2 系列已经到了 “遥遥领先” 国内各大模型的地步了。

还有一个关键点,通义有自己阿里云基于自研的异构芯片互联体系,在基础设施层,阿里云灵骏智算集群具备高达十万卡 GPU 的扩展性。这是其他国内厂商都所难以在短时间内匹敌的。

推荐大家可以尝试接入使用看看!

<think>好的,用户想要了解国内各家公司的AI大模型排名。首先,我需要确定用户的需求是什么。他们可能是在做市场调研,或者在选择合作伙伴,也可能是学术研究。不管怎样,用户需要的是一个综合的排名,涵盖主要公司和他们的模型。 接下来,我需要回忆国内有哪些主要的公司推出了大模型。百度、阿里、腾讯、华为这些大厂肯定有。然后是字节跳动、科大讯飞、商汤科技、智谱AI、MiniMax、零一万物等。可能还有一些初创公司,但用户可能更关注知名度高的。 然后,排名的依据是什么?通常包括技术能力、应用场景、商业化程度、开源情况、创新能力等。但用户可能想要一个综合的排名,而不是分项评估。不过直接说排名可能有主观性,需要说明这一点。 我需要先列出每个公司的模型,比如百度的文心一言,阿里的通义,腾讯的混元,华为的盘古,字节的云雀,讯飞的星火,商汤的日日新,智谱的GLM,MiniMax的ABAB,零一万物的Yi系列,还有百川智能和深度求索的模型。 接下来,按什么顺序排列?可能需要根据技术实力、市场影响力、应用范围来排序。百度、阿里、腾讯、华为这些大厂可能在前列,但讯飞、商汤这些专注于AI的公司也有竞争力。字节作为新入局的,但资源多,可能排名也不低。另外,像智谱AI这样的初创公司,虽然成立时间不长,但技术上有亮点,比如GLM-4。 需要注意的是,排名可能因评价标准不同而变化,比如有的模型在特定领域表现好,有的在商业化上更成功。此外,开源模型和闭源模型也有区别,比如百川和深度求索的开源模型可能在开发者中更受欢迎。 还要考虑最新动态,比如最近几个月有没有新模型发布,或者性能提升。比如讯飞的星火大模型3.5可能在某些评测中表现不错,而华为的盘古强调B端应用,可能在企业级市场有优势。 另外,用户可能想知道这些模型的特点,比如多模态能力、参数规模、应用场景等。所以在介绍每个公司时,需要简要说明其模型的特色和优势。 可能还需要提到政策和数据安全的影响,国内模型更注重中文环境和本土化需求,这也是一个优势点。 最后,要避免绝对化的排名,而是给出一个分档,比如第一梯队、第二梯队,或者按领域划分,这样更客观。同时提醒读者排名是动态变化的,可能存在主观因素,建议参考第三方评测。 总结一下,我的回答结构应该是:先说明排名的主观性和动态性,然后分公司介绍其模型和特点,最后给出一个分档排名,并建议参考具体需求选择模型。</think>国内AI大模型的竞争格局目前处于快速发展阶段,各家公司在技术能力、应用场景和商业化进展上各有侧重。由于评价标准不同(如技术性能、生态布局、行业影响力等),以下排名综合了技术实力、市场声量及实际应用情况,仅供参考(截至2024年7月): --- ### **第一梯队(综合实力领先)** 1. **百度·文心一言(ERNIE Bot)** - 优势:依托搜索引擎数据和多年NLP技术积累,多模态能力突出,已迭代至4.0版本,覆盖搜索、内容创作、企业服务等领域。 - 生态:通过“文心大模型”开放平台赋能行百业,商业化落地广泛。 2. **阿里云·通义Qwen)** - 优势:参数规模达万亿级,开源版本(如Qwen-72B)受开发者关注,与阿里云生态深度整合,在电商、金融场景表现突出。 - 动态:通义2.5版本强化逻辑推理和长文本处理能力。 3. **科大讯飞·星火大模型(Spark)** - 优势:专注教育、医疗等垂直领域,语音交互能力国内领先,星火3.5版本在多项中文评测中排名前列。 - 应用:已落地智慧课堂、医疗辅诊等场景。 --- ### **第二梯队(技术突破/垂直领域领先)** 4. **字节跳动·云雀(Lark/Doubao)** - 优势:依托抖音、头条的海量数据,擅长内容生成与推荐,C端产品“豆包”用户增长迅速。 5. **华为·盘古大模型** - 优势:聚焦B端工业场景(气象预测、矿山调度等),联合昇腾AI生态,强调行业解决方案而非通用对话。 6. **智谱AI·GLM大模型** - 优势:清华系团队背景,GLM-4在多语言、代码生成能力突出,开源生态活跃(ChatGLM系列)。 7. **商汤科技·日日新(SenseNova)** - 优势:计算机视觉技术加持,多模态生成(如视频)能力较强,布局智慧城市、自动驾驶等场景。 8. **MiniMax·ABAB大模型** - 优势:聚焦AIGC赛道,旗下“海螺AI”在长文本生成和拟人化交互体验上有特色。 --- ### **第三梯队(快速追赶/细分赛道)** 9. **零一万物·Yi系列** - 亮点:李开复团队推出,Yi-34B曾登顶HuggingFace开源榜,长上下文处理能力突出。 10. **百川智能·Baichuan** - 亮点:王小川团队主导,Baichuan2开源模型在中文数学、代码任务表现优异。 11. **深度求索·DeepSeek** - 亮点:专注模型轻量化,DeepSeek-MoE架构在推理成本控制上有创新。 12. **昆仑万维·天工(Skywork)** - 动态:3.0版本支持万字上下文,重点布局海外市场。 --- ### **评价维度补充** - **开源影响力**:智谱AI(ChatGLM)、阿里(Qwen)、零一万物(Yi)的开源模型在开发者社区接受度较高。 - **垂直领域**:医疗(医联的MedGPT)、金融(恒生的Warren)、法律(幂律的ChatLaw)等赛道涌现专业模型。 - **政策支持**:北京、上海、深圳等地政府主导的联合实验室(如北京通用AI研究院)正推动国产算力与模型协同发展。 --- ### **争议与挑战** 1. **同质化竞争**:多数大模型在通用能力上趋同,差异化多依赖数据场景而非技术代差。 2. **算力瓶颈**:英伟达芯片限制下,国产算力(华为昇腾、寒武纪等)的适配仍需时间。 3. **商业化路径**:除云服务、API调用外,C端付费习惯尚未成熟,盈利模式待探索。 建议结合具体场景需求(如开源/闭源、中文理解、行业适配)选择模型,可参考权威评测(如SuperCLUE、C-Eval)的最新结果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值