大模型评测【开源篇】Llama4作弊？｜8大领域300+能力维度深度实测，横向对比顶尖开源模型，揭晓结果04.22-CSDN博客

本文链接：https://blog.csdn.net/easyllm/article/details/147455519

Meta 最新发布的 Llama4 模型引发了广泛争议。一方面，其被指在大模型竞技场中作弊，提交了经过“针对人类偏好优化”的实验版，而非开源社区熟悉的版本，导致其排名从第二位暴跌至第 32 位。这种行为被认为是为了在排行榜中获得更好名次而进行的“特供”优化，严重损害了社区对 Meta 的信任。另一方面，Llama4 的真实水平也备受质疑。在实际测试中，其编程能力表现欠佳，如在 KCORES 基准测试中，Llama4 Scout 和 Llama4 Maverick 落后于 GPT-4o 等模型。此外，Llama4 在长文本处理、上下文理解等方面也未达到预期，甚至出现了生成内容违背物理规律等问题。这些都表明 Llama4 的实际表现与官方宣传存在较大差距，其真实水平仍需进一步验证。

接下来我们通过8大领域300多项能力维度，来评估Llama4真实水平。

Llama4目前公开发布的有2个模型：

Llama-4-Scout-17B-16E-Instruct：总参数109B，激活参数17B。后续简称Llama-4-Scout。
Llama-4-Maverick-17B-128E-Instruct：总参数400B，激活参数17B。后续简称Llama-4-Maverick。

1、首先对比上一代Llama3

（1）Llama-4-Scout VS Llama-3.3-70B-Instruct

领域	Llama-3.3-70B-Instruct	Llama-4-Scout	变化
总分	59.98	61.99	↑3%
医疗	59.21	65.42	↑10%
教育	62.68	75.99	↑21%
金融	56.89	62.11	↑9%
法律	32.07	31.67	↓1%
行政公务	66.40	55.50	↓16%
心理健康	49.62	54.00	↑9%
推理与数学计算	74.21	75.91	↑2%
语言与指令遵从	77.97	76.19	↓2%

更多细分维度结果详见：https://github.com/jeinlee1991/chinese-llm-benchmark

从上表可知：

整体效果上，Llama-4-Scout没有明显提升。
但在医疗、教育、金融、心理健康等领域，普遍有明显改善，提升幅度都达9%以上。
然而，Llama-4-Scout在行政公务领域效果远不如上一代的Llama-3.3-70B-Instruct。

（2）Llama-4-Maverick VS Llama-3.1-405B-Instruct

领域	Llama-3.1-405B-Instruct	Llama-4-Maverick	变化
总分	61.47	71.02	↑16%
医疗	66.06	75.83	↑15%
教育	59.11	82.29	↑39%
金融	59.32	71.09	↑20%
法律	36.77	48.00	↑31%
行政公务	64.20	69.00	↑7%
心理健康	53.88	59.00	↑10%
推理与数学计算	73.15	82.41	↑13%
语言与指令遵从	77.90	81.61	↑5%