开源模型综合能力见:Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜03.04。
以下为语言与指令遵从领域排行榜:
输出价格单位:(元/M tok)
排名 | 大模型 | 机构 | 输出价格 | 语言与指令遵从 |
1 | DeepSeek-R1 | 深度求索 | 16.00 | 91.16 |
2 | qwen2.5-72b-instruct | 阿里巴巴 | 12.00 | 87.97 |
3 | DeepSeek-R1-Distill-Qwen-32B | 深度求索 | 1.30 | 87.74 |
4 | qwen2.5-32b-instruct | 阿里巴巴 | 7.00 | 87.60 |
5 | qwen2.5-14b-instruct | 阿里巴巴 | 6.00 | 86.91 |
6 | deepseek-chat-v3 | 深度求索 | 8.00 | 86.58 |
7 | DeepSeek-R1-Distill-Qwen-14B | 深度求索 | 0.70 | 85.56 |
8 | Llama-3.1-Nemotron-70B-Instruct-fp8 | nvidia | 2.20 | 85.50 |
9 | Hermes-3-Llama-3.1-405B | NousResearch | 5.80 | 85.38 |
10 | Llama-3.3-70B-Instruct | meta | 4.10 | 85.37 |
11 | Llama-3.3-70B-Instruct-fp8 | meta | 2.20 | 85.14 |
12 | DeepSeek-R1-Distill-Llama-70B | 深度求索 | 4.10 | 85.03 |
13 | qwq-32b-preview | 阿里巴巴 | 7.00 | 84.80 |
14 | internlm2_5-20b-chat | 上海人工智能实验室 | 1.00 | 84.43 |
15 | Meta-Llama-3.1-405B-Instruct | Meta | 21.00 | 84.25 |
16 | gemma-2-27b-it | | 1.30 | 83.84 |
17 | internlm2_5-7b-chat | 上海人工智能实验室 | 0.40 | 83.71 |
18 | phi-4 | 微软 | 1.00 | 83.46 |
19 | qwen2.5-7b-instruct | 阿里巴巴 | 2.00 | 83.37 |
20 | Yi-1.5-34B-Chat | 零一万物 | 1.30 | 83.09 |
21 | glm-4-9b-chat | 智谱AI | 0.60 | 83.01 |
22 | gemma-2-9b-it | | 0.60 | 81.27 |
23 | qwen2.5-math-72b-instruct | 阿里巴巴 | 12.00 | 80.33 |
24 | Yi-1.5-9B-Chat | 零一万物 | 0.40 | 79.71 |
25 | Mistral-Nemo-Instruct-2407 | Mistral | 0.60 | 77.83 |
26 | qwen2.5-3b-instruct | 阿里巴巴 | 0.00 | 77.72 |
27 | DeepSeek-R1-Distill-Llama-8B | 深度求索 | 0.40 | 74.03 |
28 | Meta-Llama-3.1-8B-Instruct-fp8 | meta | 0.40 | 73.68 |
29 | Llama-3.1-8B-Instruct | Meta | 0.40 | 72.64 |
30 | DeepSeek-R1-Distill-Qwen-7B | 深度求索 | 0.40 | 71.05 |
31 | Mistral-7B-Instruct-v0.3 | Mistral | 0.40 | 69.73 |
32 | Llama-3.2-3B-Instruct | meta | 0.20 | 69.43 |
33 | qwen2.5-1.5b-instruct | 阿里巴巴 | 0.00 | 65.94 |
34 | DeepSeek-R1-Distill-Qwen-1.5B | 深度求索 | 0.10 | 57.12 |
35 | Llama-3.2-1B-Instruct | meta | 0.20 | 55.42 |
36 | qwen2.5-0.5b-instruct | 阿里巴巴 | 0.00 | 48.95 |
语言与指令遵从领域目前囊括10个维度:成语理解,情感分析,分类能力,信息抽取,阅读理解,C3中文阅读理解,代词理解CLUEWSC,诗词匹配CCPM,中文指令遵从。
完整评测结果详见:https://github.com/jeinlee1991/chinese-llm-benchmark
往期文章
关于大模型评测EasyLLM:https://easyllm.site
-
最全——全球最全大模型产品评测平台,已囊括~200个大模型
-
最新——日更各个大模型各项能力指标评测,输出排行榜
-
最方便——无需注册/梯子,国内外各个大模型可一键评测
-
结果可见——所有大模型评测的方法、题集、过程、得分结果,可见可追溯!