一、MMLU(Massive Multitask Language Understanding)
DeepSeek-V3 在 MMLU(Massive Multitask Language Understanding) 基准测试中展现了卓越的性能,成为当前开源大型语言模型中的佼佼者,并在多项子任务中接近甚至超越顶尖闭源模型。以下是其表现及技术亮点的详细解析:
1. 综合性能表现
- MMLU(5-shot):DeepSeek-V3 在 MMLU 测试中取得了 87.1% 的准确率,显著优于前代模型(如 DeepSeek-V2 的 78.4%),并接近闭源模型 GPT-4o(约 87.2%)和 Claude-3.5-Sonnet(88.3%)的水平。
- MMLU-Pro(5-shot):在更复杂的 MMLU-Pro 测试中,其准确率为 75.9%,高于 Meta 的 Llama 3.1 405B(73.3%)和 Qwen2.5 72B(71.6%),但略低于 Claude-3.5-Sonnet(78.0%)。
- MMLU-Redux:在包含对抗性问题的 MMLU-Redux 测试中,DeepSeek-V3 以 86.2% 的准确率 领先于同类模型。
对比其他模型 :