deep-research 专用评测数据集

Deep Research自2025年2月初由OpenAI推出后迅速引发全球关注,其通过端到端强化学习技术实现多步骤研究任务自动化,能在数十分钟内生成分析师水平报告,效率远超人类(耗时从30分钟到30天不等),被学者评价为“堪比优秀博士生助理”。该功能不仅吸引Pro用户付费订阅,还促使谷歌、xAI等企业加速推出竞品(如Gemini和Grok 3),形成技术竞争热潮

。学术界对其颠覆性潜力反应强烈,宾夕法尼亚大学、多伦多大学等学者称赞其在论文撰写、数据整合等场景的实用性,甚至认为可支持B级期刊快速发文。开发者社区也积极复现该技术,涌现出基于DeepSeek R1等开源模型的本地部署方案。实测案例显示,其在爬取论文作者信息、医学研究等复杂任务中表现优于传统工具,同时引发教育、科研领域对AI替代人类研究能力的广泛讨论。 

迄今为止,github上,有20+个复现deep-research的开源项目。

名称项目名star链接备注
theworldofagentsAgentic-Reasoning158https://github.com/theworldofagents/Agentic-Reasoning
HKUDSAuto-Deep-Research299https://github.com/HKUDS/Auto-Deep-Research香港大学开源的。虽然star少,但是效果很不错。对应的评测比较完整,有论文
Cognio-sodeep-research0https://github.com/Cognio-so/deep-research
dzhngdeep-research12.8khttps://github.com/dzhng/deep-research作为复现deep-research的开源项目,star最多,但是实际上逻辑非常简单!
mingdaoaideep-research0https://github.com/mingdaoai/deep-research
ssdeanx (和 dzhng是一个)deep-research-mcp-server-https://github.com/ssdeanx/deep-research-mcp-server
epuerta9deep-research-py-https://github.com/epuerta9/deep-research-py
AnotiaWangdeep-research-web-ui986https://github.com/AnotiaWang/deep-research-web-uiweb前端ui界面搭建
zilliztechdeep-searcher902https://github.com/zilliztech/deep-searcher
omni-georgiodeep_research-125https://github.com/omni-georgio/deep_research-很简单,就一个文件
HarshJ23Deeper-Seekerhttps://github.com/HarshJ23/Deeper-Seeker很简单,就一个文件
assafelovicgpt-researcher19khttps://github.com/assafelovic/gpt-researcher作为多智能体框架,开源时间较早
jina-ainode-DeepResearch2.5khttps://github.com/jina-ai/node-DeepResearch
langchain-aiollama-deep-researcher2.4khttps://github.com/langchain-ai/ollama-deep-researcher
btahir (nickscamara)有改造open-deep-research-https://github.com/btahir/open-deep-research重复
fdarkaou (AnotiaWang)open-deep-research-https://github.com/btahir/open-deep-research重复
nickscamaraopen-deep-research4.4khttps://github.com/nickscamara/open-deep-research
langchain-aiopen_deep_research1.1khttps://github.com/langchain-ai/open_deep_research
mshumerOpenDeepResearcher2.2khttps://github.com/mshumer/OpenDeepResearcher
HF
huggingface
smolagentshttps://github.com/huggingface/smolagents
grapeotdeep_research_agent62https://github.com/grapeot/deep_research_agent
LearningCircuitlocal-deep-research85https://github.com/LearningCircuit/local-deep-research
kaymen99local-rag-researcher-deepseek34https://github.com/kaymen99/local-rag-researcher-deepseek

 如何评测其效果,就要用到寻找专业、公认的测试数据集。本文结合最近看的,分享三个反响大的数据集。以及对应的资料。

一、“人类的最后考试”(Humanity's Last Exam)

数据集内容:

该测试包含 2,700 道题,涉及数十个学科,包括数学、人文科学和自然科学。HLE 由全球学科专家开发,包含适合自动评分的多项选择题和简答题。

数据特点

HLE 包含两种问题格式:精确匹配问题(模型需输出一个精确的字符串作为答案)和 多项选择题(模型需从五个或更多选项中选择一个正确答案)。HLE 是一个多模态基准,其中约 13% 的问题 需要理解文本和图像24% 的问题 是多项选择题,其余为精确匹配问题。

每道题目的提交需包含多个必需组件:问题文本、答案说明(包括精确匹配答案,或多项选择答案及正确答案标注)、详细的解题逻辑所属学科,以及贡献者的姓名和机构信息,以确保问答的可追溯性和准确性

该数据集是困难级别的测试数据集。各类模型在此数据集下测试的准确率效果低于10%

测试效果:

当前openai 的DeepResearch在此测试中的准确率达到26.6%,显著超过DeepSeek-R1的9.4%。这一成绩凸显其通过端到端强化学习优化的多步骤推理能力,尤其在跨学科知识关联和信息验证方面表现突出。

数据集相关论文:https://arxiv.org/abs/2501.14249

github地址:https://github.com/centerforaisafety/hle

二、GAIA基准测试

数据集内容:

GAIA(A Benchmark for General AI Assistants)是由Meta、HuggingFace等团队提出的通用AI助手评估基准,旨在测试AI系统在现实任务中的推理、多模态处理、工具使用等基础能力。GAIA(测试重点考察模型的网络浏览、多模态处理、代码执行和文件推理能力,并设置三个难度级别(基础、进阶、专家级)。例如,任务可能涉及从动态网页中提取数据、解析PDF图表,或结合图像与文本进行综合分析。

问题规模:共包含466个问题,其中166个公开开发集问题和答案,300个测试集问题保留答案用于排行榜竞争。

问题类型文本为主:多数问题为文本形式,部分附带图像、电子表格等多模态文件(如解析表格数据或识别图像信息)。

任务场景:涵盖日常个人任务(如查找网页注册信息)、科学问题(如数据分析)及通用知识查询。

答案格式:每个问题对应唯一、简短的事实性答案(如字符串、数字或列表),便于自动化评估。

难度分级

Level 1:简单任务,通常无需工具或仅需1个工具,步骤不超过5步(例如查找网页中的特定信息)。

Level 2:中等任务,需5-10步操作,结合多种工具(如网络搜索+表格解析)。

Level 3:复杂任务,要求近乎完美的通用助手能力,需任意长操作序列和多工具协同(如跨模态信息整合与推理)

论文地址:https://arxiv.org/pdf/2311.12983

huggingface排行榜:https://huggingface.co/spaces/gaia-benchmark/leaderboard

三、GPQA数据集

领域构成:448道高质量多选题,涵盖生物学(33%)、物理学(35%)和化学(32%)

设计目标:构建一个连搜索引擎都难以解决的"抗谷歌"级难题集,用于测试人类专家、非专家和AI系统的极限

专家表现:相关领域博士/在读博士正确率65%(若排除事后发现的明显错误可达74%)

非专家表现:高技能非领域专家(给予30分钟+网络权限)仅34%正确率

AI表现:基于GPT-4的最强基线模型正确率39%

论文地址:https://arxiv.org/pdf/2311.12022

huggingface数据集地址:https://huggingface.co/datasets/Idavidrein/gpqa

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值