Meta 最新发布的 Llama4 模型引发了广泛争议。一方面,其被指在大模型竞技场中作弊,提交了经过“针对人类偏好优化”的实验版,而非开源社区熟悉的版本,导致其排名从第二位暴跌至第 32 位。这种行为被认为是为了在排行榜中获得更好名次而进行的“特供”优化,严重损害了社区对 Meta 的信任。另一方面,Llama4 的真实水平也备受质疑。在实际测试中,其编程能力表现欠佳,如在 KCORES 基准测试中,Llama4 Scout 和 Llama4 Maverick 落后于 GPT-4o 等模型。此外,Llama4 在长文本处理、上下文理解等方面也未达到预期,甚至出现了生成内容违背物理规律等问题。这些都表明 Llama4 的实际表现与官方宣传存在较大差距,其真实水平仍需进一步验证。
接下来我们通过8大领域300多项能力维度,来评估Llama4真实水平。
Llama4目前公开发布的有2个模型:
-
Llama-4-Scout-17B-16E-Instruct:总参数109B,激活参数17B。后续简称Llama-4-Scout。
-
Llama-4-Maverick-17B-128E-Instruct:总参数400B,激活参数17B。后续简称Llama-4-Maverick。
1、首先对比上一代Llama3
(1)Llama-4-Scout VS Llama-3.3-70B-Instruct
领域 | Llama-3.3-70B-Instruct | Llama-4-Scout | 变化 |
总分 | 59.98 | 61.99 | ↑3% |
医疗 | 59.21 | 65.42 | ↑10% |
教育 | 62.68 | 75.99 | ↑21% |
金融 | 56.89 | 62.11 | ↑9% |
法律 | 32.07 | 31.67 | ↓1% |
行政公务 | 66.40 | 55.50 | ↓16% |
心理健康 | 49.62 | 54.00 | ↑9% |
推理与数学计算 | 74.21 | 75.91 | ↑2% |
语言与指令遵从 | 77.97 | 76.19 | ↓2% |
更多细分维度结果详见:https://github.com/jeinlee1991/chinese-llm-benchmark
从上表可知:
-
整体效果上,Llama-4-Scout没有明显提升。
-
但在医疗、教育、金融、心理健康等领域,普遍有明显改善,提升幅度都达9%以上。
-
然而,Llama-4-Scout在行政公务领域效果远不如上一代的Llama-3.3-70B-Instruct。
(2)Llama-4-Maverick VS Llama-3.1-405B-Instruct
领域 | Llama-3.1-405B-Instruct | Llama-4-Maverick | 变化 |
总分 | 61.47 | 71.02 | ↑16% |
医疗 | 66.06 | 75.83 | ↑15% |
教育 | 59.11 | 82.29 | ↑39% |
金融 | 59.32 | 71.09 | ↑20% |
法律 | 36.77 | 48.00 | ↑31% |
行政公务 | 64.20 | 69.00 | ↑7% |
心理健康 | 53.88 | 59.00 | ↑10% |
推理与数学计算 | 73.15 | 82.41 | ↑13% |
语言与指令遵从 | 77.90 | 81.61 | ↑5% |
注:Llama-4-Maverick使用fp8
更多细分维度结果详见:https://github.com/jeinlee1991/chinese-llm-benchmark
从上表可知:
-
相比Llama-3,Llama-4-Maverick无论在整体还是各个细分领域都有明显改善。
-
进展最突出的是教育、金融、法律等领域。
-
而在通用能力方面(推理与数学计算、语言与指令遵从),改进则稍微小一些。
2、对比其他顶尖开源模型
我们用Llama-4-Maverick来对比qwen、qwq、deepseek等顶尖开源模型。
对比普通instruct模型
对比推理类模型
更多细分维度结果详见:https://github.com/jeinlee1991/chinese-llm-benchmark
可知:
-
相比普通instruct模型,Llama-4-Maverick和qwen2.5-72b基本处于同一水平,但都远落后于deepseek-chat-v3-0324。
-
对比推理类模型,差距则更大!基本上相差一个档次。
3、对比同价位的大模型
以输出价格(元/百万token)为准,Llama-4-Scout、Llama-4-Maverick分别为:2元、4元。
无论是整体还是各个细分领域,Llama-4-Scout、Llama-4-Maverick都分别远远弱于同等(甚至更低)价位的其他模型。
关于大模型评测EasyLLM:https://easyllm.site
-
最全——全球最全大模型评测平台,已囊括200+大模型、300+评测维度
-
最新——每周更新大模型排行榜
-
最方便——无需注册/梯子,国内外各个大模型可一键评测
-
结果可见——所有大模型评测的方法、题集、过程、得分结果,可见可追溯
-
错题本——百万级大模型错题本
-
免费——为您的私有模型提供免费的全方位评测服务,欢迎私信