MMLU、MMLU-Pro等基准中,DeepSeek-V3得分达88.5,接近GPT-4o(82)

一、MMLU(Massive Multitask Language Understanding)

DeepSeek-V3 在 MMLU(Massive Multitask Language Understanding) 基准测试中展现了卓越的性能,成为当前开源大型语言模型中的佼佼者,并在多项子任务中接近甚至超越顶尖闭源模型。以下是其表现及技术亮点的详细解析:


1. 综合性能表现

  • MMLU(5-shot):DeepSeek-V3 在 MMLU 测试中取得了 87.1% 的准确率,显著优于前代模型(如 DeepSeek-V2 的 78.4%),并接近闭源模型 GPT-4o(约 87.2%)和 Claude-3.5-Sonnet(88.3%)的水平。
  • MMLU-Pro(5-shot):在更复杂的 MMLU-Pro 测试中,其准确率为 75.9%,高于 Meta 的 Llama 3.1 405B(73.3%)和 Qwen2.5 72B(71.6%),但略低于 Claude-3.5-Sonnet(78.0%)。
  • MMLU-Redux:在包含对抗性问题的 MMLU-Redux 测试中,DeepSeek-V3 以 86.2% 的准确率 领先于同类模型。

对比其他模型 :

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

百态老人

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值