Deepseek-R1性能指标

Figure

在这里插入图片描述

基准测试任务

1. AIME 2024 (Pass@1)

主要衡量模型在数学竞赛题目上的解题能力。

  • DeepSeek-R1 的表现为 79.8%,略高于 OpenAI-o1-1217(79.2%),但优于 OpenAI-o1-mini(72.6%)和 DeepSeek-V3(63.6%)。
  • OpenAI-o1-mini 在该任务上的表现最弱(39.2%)。

2. Codeforces (Percentile)

评估模型在编程竞赛环境中的排名。

  • DeepSeek-R1 取得 96.3%,仅比 OpenAI-o1-1217(96.6%)略低,但显著优于 DeepSeek-R1-32B(90.6%)和 OpenAI-o1-mini(93.4%)。
  • DeepSeek-V3 的表现相对较弱(58.7%)。

3. GPQA Diamond (Pass@1)

衡量模型在高难度通用知识问答(General-Purpose Question Answering)任务上的解答能力。

  • DeepSeek-R1 取得 71.5%,略低于 OpenAI-o1-1217(75.7%),但比 DeepSeek-V3(62.1%)和 OpenAI-o1-mini(60.0%)表现更好。

4. MATH-500 (Pass@1)

评估模型在数学题目上的准确性。

  • DeepSeek-R1 的表现最高(97.3%),超过 OpenAI-o1-1217(96.4%)、DeepSeek-R1-32B(94.3%),比 OpenAI-o1-mini(90.2%)和 DeepSeek-V3(90.0%)高出不少。

5. MMLU (Pass@1)

该任务测试模型在多学科知识上的表现。

  • DeepSeek-R1 的表现为 90.8%,略低于 OpenAI-o1-1217(91.8%),但比 DeepSeek-R1-32B(87.4%)、OpenAI-o1-mini(85.2%)和 DeepSeek-V3(88.5%)更优。

6. SWE-bench Verified (Resolved)

衡量模型在软件工程任务中的能力。

  • DeepSeek-R1 的分数为 49.2%,略高于 OpenAI-o1-1217(48.9%),远高于 OpenAI-o1-mini(41.6%)和 DeepSeek-V3(42.0%),但仍然是所有任务中整体表现最弱的。

论文链接:https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

### 对 DeepSeek-R1 进行微调的方法 对于希望改进特定领域性能或适应新应用场景的开发者来说,对预训练的语言模型如 DeepSeek-R1 进行微调是一个有效的方式。以下是针对 DeepSeek-R1 的具体方法: #### 准备工作 确保已经安装了必要的库和工具包来处理大型语言模型。通常情况下,Hugging Face Transformers 库是最常用的选项之一。 #### 获取基础模型 由于 DeepSeek-R1 已经被宣布开源[^1],可以从官方渠道下载对应的权重文件用于本地部署或者云服务环境中的实例化操作。 ```python from transformers import AutoModelForCausalLM, AutoTokenizer model_name = "deepseek-ai/DeepSeek-R1" tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained(model_name) ``` #### 数据准备 收集并整理好目标领域的标注数据集,这些数据应该能够代表预期的应用场景,并且具有足够的多样性以覆盖各种可能的情况。考虑到 DeepSeek-R1 是一个多阶段训练的结果,在某些复杂任务上可能会受益于更精细的数据设计[^2]。 #### 微调配置 定义超参数设置,包括但不限于批量大小、学习率、优化器类型等。根据实际硬件条件调整 batch size 和 epochs 数量,以便获得更好的收敛效果而不至于耗尽计算资源。 ```python training_args = TrainingArguments( output_dir='./results', num_train_epochs=3, per_device_train_batch_size=4, per_device_eval_batch_size=4, warmup_steps=500, weight_decay=0.01, logging_dir='./logs', ) trainer = Trainer( model=model, args=training_args, train_dataset=train_dataset, eval_dataset=test_dataset, tokenizer=tokenizer, ) ``` #### 开始微调 利用上述准备工作完成之后就可以启动微调流程了。注意监控训练过程中各项指标的变化趋势,及时发现潜在问题并作出相应调整。 ```python trainer.train() ``` #### 测试与验证 经过一轮或多轮迭代后,应当仔细检验最终版本的表现情况,特别是对比未经过任何修改的基础版 DeepSeek-R1 是否有所改善。如果有必要的话还可以继续探索不同的策略组合直至满意为止。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值