5分钟看看DeepSeek-R1做过的那些基准测试题(中)

DeepSeek-R1-Evaluation
评估方法:我们所有的参评模型,最大生成长度设置为 32,768 个tokens。 对于模型的采样参数,我们设置Tempreture值为 0.6 , top-p 值为0.95,并为每个查询生成 64 个响应来估计pass@1。

类别基准 (度量)Claude-3.5-Sonnet-1022GPT-4o 0513DeepSeek V3OpenAI o1-miniOpenAI o1-1217DeepSeek R1
Architecture(架构)--MoE--MoE
# Activated Params(激活参数)--37B--37B
# Total Params(总参数)--671B--671B
英语MMLU (Pass@1)88.387.288.585.291.890.8
MMLU-Redux (EM)88.988.089.186.7-92.9
MMLU-Pro (EM)78.072.675.980.3-84.0
DROP (3-shot F1)88.383.791.683.990.292.2
IF-Eval (Prompt Strict)86.584.386.184.8-83.3
GPQA-Diamond (Pass@1)65.049.959.160.075.771.5
SimpleQA (Correct)28.438.224.97.047.030.1
FRAMES (Acc.)72.580.573.376.9-82.5
AlpacaEval2.0 (LC-winrate)52.051.170.057.8-87.6
ArenaHard (GPT-4-1106)85.280.485.592.0-92.3
法典LiveCodeBench (Pass@1-COT)33.834.2-53.863.465.9
Codeforces (Percentile)20.323.658.793.496.696.3
Codeforces (Rating)7177591134182020612029
SWE Verified (Resolved)50.838.842.041.648.949.2
Aider-Polyglot (Acc.)45.316.049.632.961.753.3
数学爱 2024 (Pass@1)16.09.339.263.679.279.8
数学 500 (Pass@1)78.374.690.290.096.497.3
CNMO 2024 (Pass@1)13.110.843.267.6-78.8
中文CLUEWSC (EM)85.487.990.989.9-92.8
C-Eval (EM)76.776.086.568.9-91.8
C-SimpleQA(Correct)55.458.768.040.3-63.7

英语 

6.GPQA-Diamond (Pass@1)

GPQA-Diamond 是 GPQA(Graduate-Level Google-Proof Q&A Benchmark)系列中的最高难度子集,专注于评估大模型在 博士级科学问题 上的推理能力和专业知识。 它由纽约大学、Cohere AI 和 Anthropic 的研究团队联合开发,旨在通过 高难度、高专业性的问题 区分顶尖模型的真实能力。

核心设计特点
  • 学科覆盖:聚焦化学、物理和生物学三大领域,问题涉及 量子力学、高能粒子物理、分子生物学 等前沿方向。
  • 问题难度:问题由 领域专家设计,非专家正确率仅约34%,博士级专家的正确率约65%,而模型需达到 更高水平 才能超越人类。
  • 抗搜索性:题目无法通过简单搜索获得答案,需依赖深度推理与专业知识。
  • 数据规模:包含 198条高难度问题,是原版GPQA(448题)的精选子集,确保评测数据的纯净与高质量。
评测方法与指标
  • Pass@1:核心评测指标,即模型 首次尝试即给出正确答案的准确率,直接反映模型的推理效率和知识储备。
  • 对比方式:通过对比人类专家(如博士)与模型的正确率,衡量模型是否达到或超越人类水平。

官方网站:[2311.12022] GPQA: A Graduate-Level Google-Proof Q&A Benchmark

数据集:hendrydong/gpqa_diamond · Datasets at Hugging Face

题目示例:

solution

stringlengths

9128

93.9%

problem

stringlengths

237394

26.8%

domain

stringclasses

Physics

43.4%

\boxed{-0.7}

A spin-half particle is in a linear superposition 0.5|\uparrow\rangle+sqrt(3)/2|\downarrow\rangle of its spin-up and spin-down states. If |\uparrow\rangle and |\downarrow\rangle are the eigenstates of \sigma{z} , then what is the expectation value up to one decimal place, of the operator 10\sigma{z}+5\sigma_{x} ? Here, symbols have their usual meanings

Physics

Deepseek APP(深度思考 R1) 

正确答案:"\boxed{-0.7}",回答正确

  

  


7.SimpleQA (Correct)

基准评测的核心目标

SimpleQA是由OpenAI开发并开源的事实性基准评测工具,旨在衡量语言模型回答简短事实性问题的能力。其核心目标是通过高正确性、多样性和挑战性的数据集,解决模型输出中的“幻觉”问题(即生成错误或未经证实的答案),并推动更可靠的语言模型发展。该基准聚焦于单一可验证答案的短查询场景,简化事实性评估的复杂性。

数据集构建与质量控制

SimpleQA包含4326个经过严格筛选的问题,覆盖科技、历史、艺术等广泛主题。每个问题的参考答案需满足唯一性、时效性(答案不随时间变化)和可验证性,并由两名独立AI训练师交叉验证,仅收录双方答案一致的问题。第三位训练师对随机样本进行最终验证,估计数据集的固有错误率约为3%。这种多阶段人工审核机制确保了数据集的高质量和可靠性。

评测方法与技术特点

评测采用自动化分类器(如ChatGPT分类器)对模型答案进行三分类评分:正确(完全包含参考答案)、错误(与参考答案矛盾)或未尝试(未提供完整答案)。例如,对于“2022年荷兰对阿根廷世界杯比赛中哪位荷兰球员进球”的问题,仅回答“Wout Weghorst”被判定为正确,而包含其他球员则视为错误。该基准对前沿模型构成显著挑战,GPT-4o和ClaudeSonnet3.5的准确率均不足50%。

应用场景与局限性

SimpleQA主要应用于模型开发测试(如比较不同模型的事实准确性)、学术研究(探索模型自我校准能力)以及问答系统优化。其局限性在于仅针对短答案场景,无法全面评估长篇多事实内容的表现。不过OpenAI指出,该工具的开源将促进更可信赖的AI研究,并为中文等语言扩展(如ChineseSimpleQA)提供参考框架。

官方网站:Introducing SimpleQA | OpenAI

数据集:openai/evals: Evals is a framework for evaluating LLMs and LLM systems, and an open-source registry of benchmarks.

题目示例:

GradeDefinition(评判标准)Examples for the question “Which Dutch player scored an open-play goal in the 2022 Netherlands vs Argentina game in the men’s FIFA World Cup?” (Answer: Wout Weghorst)
“Correct”The predicted answer fully contains the ground-truth answer without contradicting the reference answer.
  • “Wout Weghorst”
  • “Wout Weghorst scored at 83’ and 90+11’ in that game”
“Incorrect”The predicted answer contradicts the ground-truth answer in any way, even if the contradiction is hedged.
  • “Virgil van Dijk”
  • “Virgil van Dijk and Wout Weghorst”
  • “Wout Weghorst and I think van Dijk scored, but I am not totally sure”
“Not attempted”The ground truth target is not fully given in the answer, and there are no contradictions with the reference answer.
  • “I don’t know the answer to that question”
  • “To find which Dutch player scored in that game, please browse the internet yourself”

Deepseek APP(深度思考 R1) 

正确答案:"Wout Weghorst",回答正确

  


8.FRAMES (Acc.)

定义与背景修正


        FRAMES 是由 Google 与 Harvard University 联合发布 的综合评估数据集,核心目标是评测大语言模型(LLMs)在 统一框架中跨文档检索、多步骤推理与生成任务 的协同能力。该基准通过模拟真实场景(如金融分析、学术研究等),要求模型整合 多源异构数据(文本、表格、代码片段等)完成复杂任务。

核心设计特点


任务统一性:将 检索、推理、生成 三阶段融合为端到端评测流程,例如:
金融报告分析:从多份10-K/10-Q文件中提取数据 → 执行数值计算 → 生成可视化代码。
技术文档理解:跨表格与段落定位信息 → 推导逻辑关系 → 输出结构化答案。
数据多样性:覆盖金融、法律、科技等领域的长文档(如SEC文件),包含 高密度数值、多层级表格 和隐含逻辑关联。
动态复杂性:任务难度由 信息分散度(跨段落/表格)和 推理步骤数 动态调整,例如需要整合3个表格数据的任务难度高于单表格任务。

官方网站:[2409.12941] Fact, Fetch, and Reason: A Unified Evaluation of Retrieval-Augmented Generation

数据集:google/frames-benchmark · Datasets at Hugging Face

题目示例:

Unnamed: 0

int64

082

10.1%

Prompt

stringlengths

195271

16%

Answer

stringlengths

1137

95.4%

reasoning_types

stringclasses

Multiple constraints

32.2%

wiki_links

stringlengths

202326

21.6%

0

If my future wife has the same first name as the 15th first lady of the United States' mother and her surname is the same as the second assassinated president's mother's maiden name, what is my future wife's name?

Jane Ballou

Multiple constraints

['https://en.wikipedia.org/wiki/President_of_the_United_States', 'https://en.wikipedia.org/wiki/James_Buchanan', 'https://en.wikipedia.org/wiki/Harriet_Lane', 'https://en.wikipedia.org/wiki/List_of_presidents_of_the_United_States_who_died_in_office', 'https://en.wikipedia.org/wiki/James_A._Garfield']

Deepseek APP(深度思考 R1) 

正确答案:"Jane Ballou",回答错误


9.AlpacaEval2.0 (LC-winrate)

        AlpacaEval 是由 Tatsu Lab 主导开发 的指令遵循语言模型自动评估工具,其核心目标是衡量模型在开放域指令场景下的响应质量。该工具通过 标准化评测流程与自动化评估机制,显著降低人工评估成本,已成为评估 ChatGPT、Claude 等前沿模型的重要基准。

核心功能升级
  • 自动化评估引擎:采用 GPT-4(或 Claude)作为元评估器,将模型回复与参考模型(如 text-davinci-003)对比,计算胜率作为核心指标(AlpacaEval 得分)。
  • 多维度评估能力:覆盖 指令理解深度、信息量、逻辑性、安全性 等维度,尤其擅长检测模型在复杂指令下的鲁棒性。
  • 开源工具包:提供数据预处理、评估器训练和结果可视化模块,支持开发者快速复现评测流程。

数据集与评估流程

  • 数据构成:基于 805 条精选指令,涵盖 Self-instruct、OpenAssistant 等多样化来源,确保评测场景的广泛覆盖。
  • 评估协议
    1. 生成模型对测试指令的回复
    2. 使用 GPT-4 对比目标模型与基准模型的回复质量
    3. 统计目标模型胜率,生成排行榜3
  • 可靠性验证:与 2.5K 人工标注结果的皮尔逊相关系数达 0.94,证明自动化评估的高可信度。

官方网站:tatsu-lab/alpaca_eval:用于指令跟踪语言模型的自动评估器。人工验证、高质量、便宜且快速。

论文:2305.14387

数据集:tatsu-lab/alpaca_eval · Datasets at Hugging Face

题目示例:

{
    "dataset": "helpful_base",
    "instruction": "What are the names of some famous actors that started their careers on Broadway?",
    "output": "Some famous actors that started their careers on Broadway include: \n1. Hugh Jackman \n2. Meryl Streep \n3. Denzel Washington \n4. Julia Roberts \n5. Christopher Walken \n6. Anthony Rapp \n7. Audra McDonald \n8. Nathan Lane \n9. Sarah Jessica Parker \n10. Lin-Manuel Miranda",
    "generator": "text_davinci_003"
  },

Deepseek APP(深度思考 R1) 

正确答案:"Some famous actors that started their careers on Broadway include: \n1. Hugh Jackman \n2. Meryl Streep \n3. Denzel Washington \n4. Julia Roberts \n5. Christopher Walken \n6. Anthony Rapp \n7. Audra McDonald \n8. Nathan Lane \n9. Sarah Jessica Parker \n10. Lin-Manuel Miranda"回答不符合


  10.ArenaHard (GPT-4-1106)

        ArenaHard是由 LMSYS组织 推出的新一代大模型基准测试,旨在解决传统评测(如MT-bench)区分度不足的问题13。其核心目标是通过 高复杂性、高区分度的题目,精准评估大模型在 真实用户场景 下的推理与问题解决能力,尤其关注 复杂任务处理 和 多领域知识融合14。

技术特点与创新


数据构建方式:
众包筛选:从Chatbot Arena平台 1000万条真实用户交互 中筛选高质量提示,覆盖 4000多个主题类别,通过UMAP降维和HDBSCAN聚类实现主题分类。
难度分级:使用 7项标准(如多级推理、技术准确性、实际应用性)对提示打分,仅选取 平均分≥6分(满分7分) 的前250类问题,确保评测的复杂性。
评测指标优化:
可分离性(87.4%):显著优于MT-bench(22.6%),能清晰区分顶尖模型与中等模型。
人类偏好对齐(89.1%):评测结果与Chatbot Arena的人类投票排名高度一致。
高效低成本:
单次评测仅需 25美元,且支持 快速迭代更新,避免传统基准因数据泄露导致的评测失真。

官方网站:From Live Data to High-Quality Benchmarks: The Arena-Hard Pipeline | LMSYS Org

数据集:Arena Hard - a Hugging Face Space by lmarena-ai

题目示例:

User

how does memory affect performance of aws lambda written in nodejs

Assistant A: gpt-4-0314

Memory allocation directly affects the performance of an AWS Lambda function written in Node.js in several ways:

  1. Execution speed: When you allocate more memory to a Lambda function, AWS proportionally increases the CPU power, network bandwidth, and disk I/O. This means that a function with higher memory will execute faster, as it has more resources available to process the tasks.
  2. Cold start duration: A cold start occurs when a new container is created to handle a request because there are no available containers to reuse. Higher memory allocation can reduce the cold start duration, as the initialization process will be faster due to increased resources.
  3. Concurrency: AWS Lambda allows you to run multiple instances of your function concurrently. If your function requires more memory, it may limit the number of concurrent executions, as each instance will consume more resources. This can affect the overall performance of your application if it relies on high concurrency.
  4. Cost: The cost of running a Lambda function depends on the memory allocation and the duration of execution. While increasing memory can improve performance, it will also increase the cost of running the function. It’s essential to find the right balance between performance and cost.

To optimize the performance of your Node.js Lambda function, you should:

  • Monitor the function’s execution time, memory usage, and other relevant metrics using AWS CloudWatch.
  • Adjust the memory allocation based on your function’s requirements and performance goals.
  • Optimize your code to reduce the execution time and memory usage.
  • Use provisioned concurrency to reduce cold start latency for critical functions.

Remember that finding the right balance between memory allocation and performance is crucial to ensure optimal performance while keeping costs under control.

Deepseek APP(深度思考 R1)

判断方法:与GPT4的答案进行比较

<think>好的,我现在需要处理用户的请求,用户想要寻找关于DeepSeek模型或工具的使用测试题目,具体是教程、测试题示例以及评估相关内容。首先,我得先理解用户的需求。用户可能正在学习如何使用DeepSeek,或者准备测试他人对DeepSeek的了解程度,需要一些测试题来检验掌握情况。 接下来,我需要参考用户提供的站内引用。引用[1]提到DeepSeek在软件测试中的实战应用,包括测试方案设计、用例生成、执行优化和报告分析。引用[2]则是一个使用指南,涵盖高效学习方法和应试技巧。用户的需求似乎是要结合这些内容生成测试题目,可能用于培训或自我评估。 我需要确定测试题的范围。根据引用内容,可能涉及基础概念、测试设计、用例生成、执行优化、报告分析和综合应用。每个部分都需要设计不同类型的问题,比如选择题、填空题、简答题和编程题,以全面覆盖知识点。 然后,考虑题目的难度梯度。从基础到进阶,确保不同层次的学习者都能找到适合的题目。例如,基础部分可以考察工具的基本功能,而进阶部分则涉及实际场景的应用和问题解决。 还要注意题目的实用性,确保问题能够反映实际使用中的常见场景和挑战。例如,如何用DeepSeek生成测试用例,或者如何分析测试报告中的性能瓶颈。 最后,生成评估标准,帮助用户判断掌握程度。可能需要根据正确率或回答的完整性来分级,如优秀、良好等,让用户明确自己的学习成果。 在过程中,我需要确保所有数学公式和代码块符合格式要求,使用正确的LaTeX语法,并且引用标识正确添加。同时,保持回答结构清晰,符合用户要求的中文回答,并生成相关问题供用户进一步探索。</think>以下是为您整理的DeepSeek使用教程测试题示例及评估标准,结合官方文档与实际应用场景设计: --- ### 一、基础概念测试(选择题) 1. 使用DeepSeek生成测试用例时,以下哪种参数设置方式符合最佳实践? A. 同时设置max_length=500和temperature=1.5 B. 采用temperature=0.7配合top_p=0.9 C. 固定max_length=1024不调整 D. 始终使用默认参数[^1] 2. 在测试方案设计阶段,DeepSeek可通过什么技术实现需求智能解析? A. 卷积神经网络 B. 自然语言处理 C. 强化学习 D. 遗传算法[^1] --- ### 二、测试设计场景题 **场景:** 需测试电商平台的优惠券计算模块 3. 请用DeepSeek生成3个边界值测试用例 预期输出格式: ```python { "case1": {"商品金额": 99, "优惠券门槛": 100}, "case2": {"商品金额": 100, "优惠券类型": "叠加券"}, ... } ``` --- ### 三、测试执行优化(填空题) 4. 在持续集成环境中,可通过DeepSeek的______接口实现测试用例的增量生成,其响应时间应控制在______ms以内为合格标准。 --- ### 四、测试报告分析(简答题) 5. 某次性能测试中DeepSeek生成以下指标,请分析问题原因: $$ 响应时间分布:P_{50}=120ms,\ P_{95}=850ms $$ $$ 错误率=0.7\%(超时错误占比80%)$$ --- ### 五、综合应用题 6. 给出信用卡风控系统的需求文档,要求: a)DeepSeek生成测试方案大纲 b) 编写自动化测试脚本框架 c) 设计测试报告的关键指标看板 --- ### 评估标准 | 得分区间 | 评估等级 | 能力描述 | |---------|---------|---------| | 90-100% | 专家级 | 熟练掌握全流程AI测试集成,能设计复杂场景解决方案 | | 70-89% | 熟练级 | 能独立完成常规测试任务,需指导处理特殊场景 | | <70% | 入门级 | 建议重点学习参数调优和场景化应用[^2] |
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值