具体排名数据见文章结尾
在人工智能领域,大模型的性能成为衡量机构技术实力的重要标志。以下是根据最新排名的一些主要发现,尤其关注中国模型的发展现状和优势。
全球领先的模型
在本次排名中,美国 OpenAI 的多个版本占据榜首位置。具体而言:
- o1 模型:总分 80.4,凭借 87.3 的理科成绩和 77.1 的文科成绩成为绝对的行业领跑者。
- o1-preview 和 ChatGPT-4o-latest 分别以 74.2 和 70.2 的总分位居第二和第三,说明 OpenAI 在模型版本迭代和不同场景适应方面都保持领先。
这些模型普遍以高水准的多学科能力著称,尤其在 Hard(高难度)任务中表现突出。
中国大模型的表现
中国的人工智能技术近年来取得显著进步,在这次排名中也展现出不俗的竞争力。例如:
-
深度求索(DeepSeek-V3)
- 总分 68.3,理科成绩 72.0,文科成绩 78.2。
- 其理科能力虽然略低于 OpenAI 的主要模型,但在文科任务中展现了较强的语言理解和生成能力。
- 提供的 API 使用方式,说明其应用更偏向开发者市场。
-
商汤 SenseChat 5.5-latest
- 总分 68.3,与深度求索并列。
- 在文科方面得分 81.8,超过许多国际对手,表明其在自然语言生成和理解方面的长足进步。
这些模型的发布时间与国际领先模型保持同步(2025 年 1 月 8 日),显示了中国团队在研发和迭代速度上的竞争力。
优势与挑战
优势:
- 多学科适应能力:中国模型如深度求索在理科和文科任务中都有较为均衡的表现,尤其在文科任务上优势明显。
- 开放性:通过 API 提供服务,降低了技术应用的门槛,扩大了模型的用户群体。
挑战:
- 高难度任务差距:在 Hard 项目的评分中,中国模型(如 DeepSeek-V3 的 54.8 和 SenseChat 的 51.5)仍与 OpenAI 的顶尖模型有明显差距。
- 品牌影响力不足:相比 OpenAI 的全球知名度,中国模型需要进一步加强国际市场的认可度。
展望未来
中国的大模型在2025年已经取得显著成就,但仍有很大的提升空间。未来的努力方向包括:
- 技术深度突破:缩小在高难度任务上的差距,提升模型的通用智能水平。
- 国际化布局:加强模型的推广与应用,在全球市场中树立“中国智造”的形象。
- 多样化场景优化:针对特定行业(如教育、医疗等)进行专用模型开发,提高模型的实际价值。
我们看到中美在大模型领域的激烈竞争。虽然目前 OpenAI 仍占据技术高地,但中国团队的快速崛起不容忽视。未来几年,随着更多技术和资源的投入,中国大模型或将迎来全球性的技术突破与应用落地。
SuperCLUE总排行榜
排名 |
模型名称 |
机构 |
总分 |
Hard |
理科 |
文科 |
使用方式 |
发布日期 |
---|---|---|---|---|---|---|---|---|
- |
o1 |
OpenAI |
80.4 |
76.7 |
87.3 |
77.1 |
网页 |
2025年1月8日 |
- |
o1-preview |
OpenAI |
74.2 |
63.6 |
80.6 |
78.5 |
API |
2025年1月8日 |
- |
ChatGPT-4o-latest |
OpenAI |
70.2 |
57.8 |
72.1 |
80.7 |
API |
2025年1月8日 |
🏅️ |
DeepSeek-V3 |
深度求索 |
68.3 |
54.8 |
72 |
78.2 |
API |
2025年1月8日 |
🏅️ |
SenseChat 5.5-latest |
商汤 |
68.3 |
51.5 |
71.6 |
81.8 |
API |
2025年1月8日 |
- |
Gemini-2.0-Flash-Exp |
|
68.2 |
55.5 |
72.6 |
76.6 |
API |
2025年1月8日 |
- |
Claude 3.5 Sonnet(20241022) |
Anthropic |
67.7 |
54.6 |
71.4 |
77.2 |
API |
2025年1月8日 |
🏅️ |
360zhinao2-o1 |
360 |
67.4 |
51.4 |
72.1 |
78.7 |
API |
2025年1月8日 |
🥈 |
Doubao-pro-32k-241215 |
字节跳动 |
66.5 |
50.6 |
72.3 |
76.6 |
API |
2025年1月8日 |
🥈 |
NebulaCoder-V5 |
中兴通讯 |
66.4 |
48.6 |
69.5 |
80.9 |
API |
2025年1月8日 |
🥈 |
Qwen-max-latest |
阿里巴巴 |
66.2 |
51.3 |
67.4 |
80 |
API |
2025年1月8日 |
- |
Qwen2.5-72B-Instruct |
阿里巴巴 |
65.4 |
49.7 |
66.2 |
80.3 |
API |
2025年1月8日 |
🥉 |
Step-2-16k |
阶跃星辰 |
65.2 |
50 |
65.1 |
80.3 |
API |
2025年1月8日 |
🥉 |
GLM-4-Plus |
智谱AI |
65.1 |
48.5 |
68.1 |
78.8 |
API |
2025年1月8日 |
- |
Grok-2-1212 |
X.AI |
63.9 |
49.2 |
66.8 |
75.5 |
API |
2025年1月8日 |
- |
DeepSeek-R1-Lite-Preview |
深度求索 |
63.8 |
44.9 |
69.7 |
76.8 |
网页 |
2025年1月8日 |
- |
Qwen2.5-32B-Instruct |
阿里巴巴 |
63.7 |
44.9 |
66.9 |
79.1 |
API |
2025年1月8日 |
4 |
Sky-Chat-3.0 |
昆仑万维 |
63 |
44.5 |
65.4 |
79.1 |
API |
2025年1月8日 |
- |
DeepSeek-V2.5 |
深度求索 |
63 |
45.3 |
67.6 |
76.1 |
API |
2025年1月8日 |
4 |
MiniMax-abab7-preview |
MiniMax |
62.8 |
42.8 |
64.9 |
80.7 |
API |
2025年1月8日 |
4 |
Hunyuan-Turbo |
腾讯 |
62.3 |
38.6 |
67.7 |
80.6 |
API |
2025年1月8日 |
4 |
TeleChat2-Large |
TeleAI |
62.3 |
43.3 |
64.1 |
79.5 |
API |
2025年1月8日 |
4 |
ERNIE-4.0-Turbo-8K-Latest |
百度 |
62.2 |
45.6 |
61.4 |
79.5 |
API |
2025年1月8日 |
5 |
Baichuan4 |
百川智能 |
61.8 |
45 |
62 |
78.2 |
API |
2025年1月8日 |
- |
GPT-4o-mini |
OpenAI |
60.6 |
42.8 |
63.3 |
75.8 |
API |
2025年1月8日 |
6 |
kimi |
Kimi |
59.4 |
43.5 |
58.1 |
76.6 |
网页 |
2025年1月8日 |
- |
Llama-3.3-70B-Instruct |
Meta |
59.4 |
38.8 |
66.4 |
72.9 |
API |
2025年1月8日 |
7 |
TeleChat2-35B |
TeleAI |
57.1 |
37.6 |
55.6 |
78.2 |
模型 |
2025年1月8日 |
8 |
Qwen2.5-7B-Instruct |
阿里巴巴 |
55.5 |
35.7 |
54.4 |
76.4 |
API |
2025年1月8日 |
9 |
QwQ-32B-Preview |
阿里巴巴 |
54.3 |
26.6 |
59.8 |
76.5 |
API |
2025年1月8日 |
10 |
讯飞星火V4.0 |
科大讯飞 |
52.7 |
20.3 |
62.3 |
75.4 |
API |
2025年1月8日 |
10 |
GLM-4-9B-Chat |
智谱AI |
52.4 |
31.6 |
50.6 |
75.1 |
模型 |
2025年1月8日 |
- |
Gemma-2-9b-it |
|
48.6 |
22.7 |
49.5 |
73.7 |
模型 |
2025年1月8日 |
11 |
Yi-1.5-34B-Chat-16K |
零一万物 |
48.2 |
20.6 |
48.2 |
75.9 |
模型 |
2025年1月8日 |
11 |
360Zhinao2-7B-Chat-4K |
360 |
47.8 |
17.5 |
50.7 |
75.2 |
模型 |
2025年1月8日 |
12 |
Qwen2.5-3B-Instruct |
阿里巴巴 |
46.1 |
18.6 |
44.2 |
75.5 |
API |
2025年1月8日 |
13 |
Yi-1.5-9B-Chat-16K |
零一万物 |
44.3 |
20.3 |
41.3 |
71.3 |
模型 |
2025年1月8日 |
13 |
MiniCPM3-4B |
面壁智能 |
44.2 |
13.7 |
45.9 |
73 |
模型 |
2025年1月8日 |
- |
Llama-3.1-8B-Instruct |
Meta |
43.9 |
20.9 |
42.8 |
68.1 |
API |
2025年1月8日 |
- |
Phi-3.5-Mini-Instruct |
微软 |
42.4 |
14 |
42.4 |
70.7 |
模型 |
2025年1月8日 |
- |
Gemma-2-2b-it |
|
39.2 |
11.8 |
36.4 |
69.4 |
模型 |
2025年1月8日 |
- |
Mistral-7B-Instruct-v0.3 |
Mistral AI |
33.2 |
11.4 |
31.2 |
56.9 |
模型 |
2025年1月8日 |