大模型评测【开源篇】Llama4作弊?|8大领域300+能力维度深度实测,横向对比顶尖开源模型,揭晓结果04.22

Meta 最新发布的 Llama4 模型引发了广泛争议。一方面,其被指在大模型竞技场中作弊,提交了经过“针对人类偏好优化”的实验版,而非开源社区熟悉的版本,导致其排名从第二位暴跌至第 32 位。这种行为被认为是为了在排行榜中获得更好名次而进行的“特供”优化,严重损害了社区对 Meta 的信任。另一方面,Llama4 的真实水平也备受质疑。在实际测试中,其编程能力表现欠佳,如在 KCORES 基准测试中,Llama4 Scout 和 Llama4 Maverick 落后于 GPT-4o 等模型。此外,Llama4 在长文本处理、上下文理解等方面也未达到预期,甚至出现了生成内容违背物理规律等问题。这些都表明 Llama4 的实际表现与官方宣传存在较大差距,其真实水平仍需进一步验证。

接下来我们通过8大领域300多项能力维度,来评估Llama4真实水平。

Llama4目前公开发布的有2个模型:

  • Llama-4-Scout-17B-16E-Instruct:总参数109B,激活参数17B。后续简称Llama-4-Scout。

  • Llama-4-Maverick-17B-128E-Instruct:总参数400B,激活参数17B。后续简称Llama-4-Maverick。

1、首先对比上一代Llama3

(1)Llama-4-Scout VS Llama-3.3-70B-Instruct

领域

Llama-3.3-70B-Instruct

Llama-4-Scout

变化

总分

59.98

61.99

↑3%

医疗

59.21

65.42

↑10%

教育

62.68

75.99

↑21%

金融

56.89

62.11

↑9%

法律

32.07

31.67

↓1%

行政公务

66.40

55.50

↓16%

心理健康

49.62

54.00

↑9%

推理与数学计算

74.21

75.91

↑2%

语言与指令遵从

77.97

76.19

↓2%

更多细分维度结果详见:https://github.com/jeinlee1991/chinese-llm-benchmark

从上表可知:

  • 整体效果上,Llama-4-Scout没有明显提升。

  • 但在医疗、教育、金融、心理健康等领域,普遍有明显改善,提升幅度都达9%以上。

  • 然而,Llama-4-Scout在行政公务领域效果远不如上一代的Llama-3.3-70B-Instruct。

(2)Llama-4-Maverick VS Llama-3.1-405B-Instruct

领域

Llama-3.1-405B-Instruct

Llama-4-Maverick

变化

总分

61.47

71.02

↑16%

医疗

66.06

75.83

↑15%

教育

59.11

82.29

↑39%

金融

59.32

71.09

↑20%

法律

36.77

48.00

↑31%

行政公务

64.20

69.00

↑7%

心理健康

53.88

59.00

↑10%

推理与数学计算

73.15

82.41

↑13%

语言与指令遵从

77.90

81.61

↑5%

注:Llama-4-Maverick使用fp8

更多细分维度结果详见:https://github.com/jeinlee1991/chinese-llm-benchmark

从上表可知:

  • 相比Llama-3,Llama-4-Maverick无论在整体还是各个细分领域都有明显改善。

  • 进展最突出的是教育、金融、法律等领域。

  • 而在通用能力方面(推理与数学计算、语言与指令遵从),改进则稍微小一些。

2、对比其他顶尖开源模型

我们用Llama-4-Maverick来对比qwen、qwq、deepseek等顶尖开源模型。

对比普通instruct模型

图片

对比推理类模型

图片

更多细分维度结果详见:https://github.com/jeinlee1991/chinese-llm-benchmark

可知:

  • 相比普通instruct模型,Llama-4-Maverick和qwen2.5-72b基本处于同一水平,但都远落后于deepseek-chat-v3-0324。

  • 对比推理类模型,差距则更大!基本上相差一个档次。

3、对比同价位的大模型

以输出价格(元/百万token)为准,Llama-4-Scout、Llama-4-Maverick分别为:2元、4元。

图片

图片

无论是整体还是各个细分领域,Llama-4-Scout、Llama-4-Maverick都分别远远弱于同等(甚至更低)价位的其他模型。


关于大模型评测EasyLLM:https://easyllm.site

  1. 最全——全球最全大模型评测平台,已囊括200+大模型、300+评测维度

  2. 最新——每周更新大模型排行榜

  3. 最方便——无需注册/梯子,国内外各个大模型可一键评测

  4. 结果可见——所有大模型评测的方法、题集、过程、得分结果,可见可追溯

  5. 错题本——百万级大模型错题本

  6. 免费——为您的私有模型提供免费的全方位评测服务,欢迎私信

图片

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值