Deepseek-R1性能指标

最新推荐文章于 2025-04-14 07:16:17 发布

ZHOU_CAMP

最新推荐文章于 2025-04-14 07:16:17 发布

阅读量3.7k

点赞数 28

分类专栏： agent 论文解读文章标签：人工智能 agent

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41472205/article/details/145384683

版权

agent 论文解读专栏收录该内容

21 篇文章

订阅专栏

目录

Figure

在这里插入图片描述

基准测试任务

1. AIME 2024 (Pass@1)

主要衡量模型在数学竞赛题目上的解题能力。

DeepSeek-R1 的表现为 79.8%，略高于 OpenAI-o1-1217（79.2%），但优于 OpenAI-o1-mini（72.6%）和 DeepSeek-V3（63.6%）。
OpenAI-o1-mini 在该任务上的表现最弱（39.2%）。

2. Codeforces (Percentile)

评估模型在编程竞赛环境中的排名。

DeepSeek-R1 取得 96.3%，仅比 OpenAI-o1-1217（96.6%）略低，但显著优于 DeepSeek-R1-32B（90.6%）和 OpenAI-o1-mini（93.4%）。
DeepSeek-V3 的表现相对较弱（58.7%）。

3. GPQA Diamond (Pass@1)

衡量模型在高难度通用知识问答（General-Purpose Question Answering）任务上的解答能力。

DeepSeek-R1 取得 71.5%，略低于 OpenAI-o1-1217（75.7%），但比 DeepSeek-V3（62.1%）和 OpenAI-o1-mini（60.0%）表现更好。

4. MATH-500 (Pass@1)

评估模型在数学题目上的准确性。

DeepSeek-R1 的表现最高（97.3%），超过 OpenAI-o1-1217（96.4%）、DeepSeek-R1-32B（94.3%），比 OpenAI-o1-mini（90.2%）和 DeepSeek-V3（90.0%）高出不少。

5. MMLU (Pass@1)

该任务测试模型在多学科知识上的表现。

DeepSeek-R1 的表现为 90.8%，略低于 OpenAI-o1-1217（91.8%），但比 DeepSeek-R1-32B（87.4%）、OpenAI-o1-mini（85.2%）和 DeepSeek-V3（88.5%）更优。

6. SWE-bench Verified (Resolved)

衡量模型在软件工程任务中的能力。

DeepSeek-R1 的分数为 49.2%，略高于 OpenAI-o1-1217（48.9%），远高于 OpenAI-o1-mini（41.6%）和 DeepSeek-V3（42.0%），但仍然是所有任务中整体表现最弱的。

论文链接：https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

博客等级

码龄7年

311
原创

3458
点赞

2811
收藏

1645
粉丝

关注

私信

热门文章

分类专栏

dify 4篇
flask 4篇
PocketFlow 1篇
MCP 14篇
docker 12篇
fastapi 7篇
软件安装 16篇
agent中的记忆模块 4篇
react 11篇
langchain实践 72篇
RAG 16篇
深度学习模块 11篇
instructor 10篇
llama_index实践 1篇
oi_agents 9篇
llm_benchmark 8篇
browser-use 6篇
deepseek related 论文 10篇
Hugging Face Agents Course 1篇
chat_Chain 8篇
agent 论文解读 21篇
ultralytics 2篇
autogen 53篇
移动智能体 11篇
metagpt 14篇
django 11篇
vue3 1篇

展开全部收起

上一篇：: Autogen_core：Concurrent Agents

下一篇：: Qwen2.5-max 性能

最新评论

MCP Client 示例（open ai 实现）
ZHOU_CAMP: Sure. 大部分模型，如千问，deepseek等都支持openai格式，只需要改动他的url和key即可。也可以用他们自己开发的sdk，如智谱开发的zhipu库
MCP Client 示例（open ai 实现）
大肌大力帅: 请教一下，能否不通过open ai 实现呢？
用Python构建一个天气API集成
ZHOU_CAMP: 我再测了一遍，只要把api key换成你自己的，应该没什么问题
mem0跟Memgraph交互
ZHOU_CAMP: 安装了这个了吗langchain-memgraph
mem0跟Memgraph交互
辰701: Traceback (most recent call last): File "C:\Users\hhh\AppData\Roaming\Python\Python313\site-packages\mem0\memory\memgraph_memory.py", line 6, in <module> from langchain_memgraph import Memgraph ImportError: cannot import name 'Memgraph' from 'langchain_memgraph' (C:\Users\hhh\AppData\Roaming\Python\Python313\site-packages\langchain_memgraph\__init__.py) 为什么我的一直报错这个啊

最新文章

2025

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。