Deepseek-R1性能指标

Figure

在这里插入图片描述

基准测试任务

1. AIME 2024 (Pass@1)

主要衡量模型在数学竞赛题目上的解题能力。

  • DeepSeek-R1 的表现为 79.8%,略高于 OpenAI-o1-1217(79.2%),但优于 OpenAI-o1-mini(72.6%)和 DeepSeek-V3(63.6%)。
  • OpenAI-o1-mini 在该任务上的表现最弱(39.2%)。

2. Codeforces (Percentile)

评估模型在编程竞赛环境中的排名。

  • DeepSeek-R1 取得 96.3%,仅比 OpenAI-o1-1217(96.6%)略低,但显著优于 DeepSeek-R1-32B(90.6%)和 OpenAI-o1-mini(93.4%)。
  • DeepSeek-V3 的表现相对较弱(58.7%)。

3. GPQA Diamond (Pass@1)

衡量模型在高难度通用知识问答(General-Purpose Question Answering)任务上的解答能力。

  • DeepSeek-R1 取得 71.5%,略低于 OpenAI-o1-1217(75.7%),但比 DeepSeek-V3(62.1%)和 OpenAI-o1-mini(60.0%)表现更好。

4. MATH-500 (Pass@1)

评估模型在数学题目上的准确性。

  • DeepSeek-R1 的表现最高(97.3%),超过 OpenAI-o1-1217(96.4%)、DeepSeek-R1-32B(94.3%),比 OpenAI-o1-mini(90.2%)和 DeepSeek-V3(90.0%)高出不少。

5. MMLU (Pass@1)

该任务测试模型在多学科知识上的表现。

  • DeepSeek-R1 的表现为 90.8%,略低于 OpenAI-o1-1217(91.8%),但比 DeepSeek-R1-32B(87.4%)、OpenAI-o1-mini(85.2%)和 DeepSeek-V3(88.5%)更优。

6. SWE-bench Verified (Resolved)

衡量模型在软件工程任务中的能力。

  • DeepSeek-R1 的分数为 49.2%,略高于 OpenAI-o1-1217(48.9%),远高于 OpenAI-o1-mini(41.6%)和 DeepSeek-V3(42.0%),但仍然是所有任务中整体表现最弱的。

论文链接:https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值