具体排名数据见文章结尾
在人工智能领域,大模型的性能成为衡量机构技术实力的重要标志。以下是根据最新排名的一些主要发现,尤其关注中国模型的发展现状和优势。
全球领先的模型
在本次排名中,美国 OpenAI 的多个版本占据榜首位置。具体而言:
- o1 模型:总分 80.4,凭借 87.3 的理科成绩和 77.1 的文科成绩成为绝对的行业领跑者。
- o1-preview 和 ChatGPT-4o-latest 分别以 74.2 和 70.2 的总分位居第二和第三,说明 OpenAI 在模型版本迭代和不同场景适应方面都保持领先。
这些模型普遍以高水准的多学科能力著称,尤其在 Hard(高难度)任务中表现突出。
中国大模型的表现
中国的人工智能技术近年来取得显著进步,在这次排名中也展现出不俗的竞争力。例如:
-
深度求索(DeepSeek-V3)
- 总分 68.3,理科成绩 72.0,文科成绩 78.2。
- 其理科能力虽然略低于 OpenAI 的主要模型,但在文科任务中展现了较强的语言理解和生成能力。
- 提供的 API 使用方式,说明其应用更偏向开发者市场。
-
商汤 SenseChat 5.5-latest
- 总分 68.3,与深度求索并列。
- 在文科方面得分 81.8,超过许多国际对手,表明其在自然语言生成和理解方面的长足进步。
这些模型的发布时间与国际领先模型保持同步(2025 年 1 月 8 日),显示了中国团队在研发和迭代速度上的竞争力。
优势与挑战
优势:
- 多学科适应能力:中国模型如深度求索在理科和文科任务中都有较为均衡的表现,尤其在文科任务上优势明显。
- 开放性:通过 API 提供服务,降低了技术应用的门槛,扩大了模型的用户群体。
挑战:
- 高难度任务差距:在 Hard 项目的评分中,中国模型(如 DeepSeek-V3 的 54.8 和 SenseChat 的 51.5)仍与 OpenAI 的顶尖模型有明显差距。
- 品牌影响力不足:相比 OpenAI 的全球知名度,中国模型需要进一步加强国际市场的认可度。
展望未来
中国的大模型在2025年已经取得显著成就,但仍有很大的提升空间。未来的努力方向包括:
- 技术深度突破:缩小在高难度任务上的差距,提升模型的通用智能水平。
- 国际化布局:加强模型的推广与应用,在全球市场中树立“中国智造”的形象。
- 多样化场景优化:针对特定行业(如教育、医疗等)进行专用模型开发,提高模型的实际价值。
我们看到中美在大模型领域的激烈竞争。虽然目前 OpenAI 仍占据技术高地,但中国团队的快速崛起不容忽视。未来几年,随着更多技术和资源的投入,中国大模型或将迎来全球性的技术突破与应用落地。
SuperCLUE总排行榜
排名 | 模型名称 | 机构 | 总分 | Hard | 理科 | 文科 | 使用方式 | 发布日期 |
---|---|---|---|---|---|---|---|---|
- | o1 | OpenAI | 80.4 | 76.7 | 87.3 | 77.1 | 网页 | 2025年1月8日 |
- | o1-preview | OpenAI | 74.2 | 63.6 | 80.6 | 78.5 | API | 2025年1月8日 |
- | ChatGPT-4o-latest | OpenAI | 70.2 | 57.8 | 72.1 | 80.7 | API | 2025年1月8日 |
🏅️ | DeepSeek-V3 | 深度求索 | 68.3 | 54.8 | 72 | 78.2 | API | 2025年1月8日 |
🏅️ | SenseChat 5.5-latest | 商汤 | 68.3 | 51.5 | 71.6 | 81.8 | API | 2025年1月8日 |
- | Gemini-2.0-Flash-Exp | | 68.2 | 55.5 | 72.6 | 76.6 | API | 2025年1月8日 |
- | Claude 3.5 Sonnet(20241022) | Anthropic | 67.7 | 54.6 | 71.4 | 77.2 | API | 2025年1月8日 |
🏅️ | 360zhinao2-o1 | 360 | 67.4 | 51.4 | 72.1 | 78.7 | API | 2025年1月8日 |
🥈 | Doubao-pro-32k-241215 | 字节跳动 | 66.5 | 50.6 | 72.3 | 76.6 | API | 2025年1月8日 |
🥈 | NebulaCoder-V5 | 中兴通讯 | 66.4 | 48.6 | 69.5 | 80.9 | API | 2025年1月8日 |
🥈 | Qwen-max-latest | 阿里巴巴 | 66.2 | 51.3 | 67.4 | 80 | API | 2025年1月8日 |
- | Qwen2.5-72B-Instruct | 阿里巴巴 | 65.4 | 49.7 | 66.2 | 80.3 | API | 2025年1月8日 |
🥉 | Step-2-16k | 阶跃星辰 | 65.2 | 50 | 65.1 | 80.3 | API | 2025年1月8日 |
🥉 | GLM-4-Plus | 智谱AI | 65.1 | 48.5 | 68.1 | 78.8 | API | 2025年1月8日 |
- | Grok-2-1212 | X.AI | 63.9 | 49.2 | 66.8 | 75.5 | API | 2025年1月8日 |
- | DeepSeek-R1-Lite-Preview | 深度求索 | 63.8 | 44.9 | 69.7 | 76.8 | 网页 | 2025年1月8日 |
- | Qwen2.5-32B-Instruct | 阿里巴巴 | 63.7 | 44.9 | 66.9 | 79.1 | API | 2025年1月8日 |
4 | Sky-Chat-3.0 | 昆仑万维 | 63 | 44.5 | 65.4 | 79.1 | API | 2025年1月8日 |
- | DeepSeek-V2.5 | 深度求索 | 63 | 45.3 | 67.6 | 76.1 | API | 2025年1月8日 |
4 | MiniMax-abab7-preview | MiniMax | 62.8 | 42.8 | 64.9 | 80.7 | API | 2025年1月8日 |
4 | Hunyuan-Turbo | 腾讯 | 62.3 | 38.6 | 67.7 | 80.6 | API | 2025年1月8日 |
4 | TeleChat2-Large | TeleAI | 62.3 | 43.3 | 64.1 | 79.5 | API | 2025年1月8日 |
4 | ERNIE-4.0-Turbo-8K-Latest | 百度 | 62.2 | 45.6 | 61.4 | 79.5 | API | 2025年1月8日 |
5 | Baichuan4 | 百川智能 | 61.8 | 45 | 62 | 78.2 | API | 2025年1月8日 |
- | GPT-4o-mini | OpenAI | 60.6 | 42.8 | 63.3 | 75.8 | API | 2025年1月8日 |
6 | kimi | Kimi | 59.4 | 43.5 | 58.1 | 76.6 | 网页 | 2025年1月8日 |
- | Llama-3.3-70B-Instruct | Meta | 59.4 | 38.8 | 66.4 | 72.9 | API | 2025年1月8日 |
7 | TeleChat2-35B | TeleAI | 57.1 | 37.6 | 55.6 | 78.2 | 模型 | 2025年1月8日 |
8 | Qwen2.5-7B-Instruct | 阿里巴巴 | 55.5 | 35.7 | 54.4 | 76.4 | API | 2025年1月8日 |
9 | QwQ-32B-Preview | 阿里巴巴 | 54.3 | 26.6 | 59.8 | 76.5 | API | 2025年1月8日 |
10 | 讯飞星火V4.0 | 科大讯飞 | 52.7 | 20.3 | 62.3 | 75.4 | API | 2025年1月8日 |
10 | GLM-4-9B-Chat | 智谱AI | 52.4 | 31.6 | 50.6 | 75.1 | 模型 | 2025年1月8日 |
- | Gemma-2-9b-it | | 48.6 | 22.7 | 49.5 | 73.7 | 模型 | 2025年1月8日 |
11 | Yi-1.5-34B-Chat-16K | 零一万物 | 48.2 | 20.6 | 48.2 | 75.9 | 模型 | 2025年1月8日 |
11 | 360Zhinao2-7B-Chat-4K | 360 | 47.8 | 17.5 | 50.7 | 75.2 | 模型 | 2025年1月8日 |
12 | Qwen2.5-3B-Instruct | 阿里巴巴 | 46.1 | 18.6 | 44.2 | 75.5 | API | 2025年1月8日 |
13 | Yi-1.5-9B-Chat-16K | 零一万物 | 44.3 | 20.3 | 41.3 | 71.3 | 模型 | 2025年1月8日 |
13 | MiniCPM3-4B | 面壁智能 | 44.2 | 13.7 | 45.9 | 73 | 模型 | 2025年1月8日 |
- | Llama-3.1-8B-Instruct | Meta | 43.9 | 20.9 | 42.8 | 68.1 | API | 2025年1月8日 |
- | Phi-3.5-Mini-Instruct | 微软 | 42.4 | 14 | 42.4 | 70.7 | 模型 | 2025年1月8日 |
- | Gemma-2-2b-it | | 39.2 | 11.8 | 36.4 | 69.4 | 模型 | 2025年1月8日 |
- | Mistral-7B-Instruct-v0.3 | Mistral AI | 33.2 | 11.4 | 31.2 | 56.9 | 模型 | 2025年1月8日 |