Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜:语言与指令遵从领域03.05

开源模型综合能力见:Llama/Qwen/DeepSeek开源之争——CLiB开源大模型排行榜03.04

以下为语言与指令遵从领域排行榜:

输出价格单位:(元/M tok)

排名

大模型

机构

输出价格

语言与指令遵从

1

DeepSeek-R1

深度求索

16.00

91.16

2

qwen2.5-72b-instruct

阿里巴巴

12.00

87.97

3

DeepSeek-R1-Distill-Qwen-32B

深度求索

1.30

87.74

4

qwen2.5-32b-instruct

阿里巴巴

7.00

87.60

5

qwen2.5-14b-instruct

阿里巴巴

6.00

86.91

6

deepseek-chat-v3

深度求索

8.00

86.58

7

DeepSeek-R1-Distill-Qwen-14B

深度求索

0.70

85.56

8

Llama-3.1-Nemotron-70B-Instruct-fp8

nvidia

2.20

85.50

9

Hermes-3-Llama-3.1-405B

NousResearch

5.80

85.38

10

Llama-3.3-70B-Instruct

meta

4.10

85.37

11

Llama-3.3-70B-Instruct-fp8

meta

2.20

85.14

12

DeepSeek-R1-Distill-Llama-70B

深度求索

4.10

85.03

13

qwq-32b-preview

阿里巴巴

7.00

84.80

14

internlm2_5-20b-chat

上海人工智能实验室

1.00

84.43

15

Meta-Llama-3.1-405B-Instruct

Meta

21.00

84.25

16

gemma-2-27b-it

Google

1.30

83.84

17

internlm2_5-7b-chat

上海人工智能实验室

0.40

83.71

18

phi-4

微软

1.00

83.46

19

qwen2.5-7b-instruct

阿里巴巴

2.00

83.37

20

Yi-1.5-34B-Chat

零一万物

1.30

83.09

21

glm-4-9b-chat

智谱AI

0.60

83.01

22

gemma-2-9b-it

Google

0.60

81.27

23

qwen2.5-math-72b-instruct

阿里巴巴

12.00

80.33

24

Yi-1.5-9B-Chat

零一万物

0.40

79.71

25

Mistral-Nemo-Instruct-2407

Mistral

0.60

77.83

26

qwen2.5-3b-instruct

阿里巴巴

0.00

77.72

27

DeepSeek-R1-Distill-Llama-8B

深度求索

0.40

74.03

28

Meta-Llama-3.1-8B-Instruct-fp8

meta

0.40

73.68

29

Llama-3.1-8B-Instruct

Meta

0.40

72.64

30

DeepSeek-R1-Distill-Qwen-7B

深度求索

0.40

71.05

31

Mistral-7B-Instruct-v0.3

Mistral

0.40

69.73

32

Llama-3.2-3B-Instruct

meta

0.20

69.43

33

qwen2.5-1.5b-instruct

阿里巴巴

0.00

65.94

34

DeepSeek-R1-Distill-Qwen-1.5B

深度求索

0.10

57.12

35

Llama-3.2-1B-Instruct

meta

0.20

55.42

36

qwen2.5-0.5b-instruct

阿里巴巴

0.00

48.95

语言与指令遵从领域目前囊括10个维度:成语理解,情感分析,分类能力,信息抽取,阅读理解,C3中文阅读理解,代词理解CLUEWSC,诗词匹配CCPM,中文指令遵从。

完整评测结果详见:https://github.com/jeinlee1991/chinese-llm-benchmark

往期文章


关于大模型评测EasyLLM:https://easyllm.site

  1. 最全——全球最全大模型产品评测平台,已囊括~200个大模型

  2. 最新——日更各个大模型各项能力指标评测,输出排行榜

  3. 最方便——无需注册/梯子,国内外各个大模型可一键评测

  4. 结果可见——所有大模型评测的方法、题集、过程、得分结果,可见可追溯!

图片

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值