note
文章目录
GPQA:研究生级别的Google-Proof问答基准
项目地址:https://github.com/idavidrein/gpqa
GPQA项目的技术架构主要包括数据集的构建、模型的评估和基准测试的执行。数据集的构建过程中,开发者们通过人工筛选和设计,确保每个问题都具有一定的难度和复杂性。数据集的下载方式灵活,既可以通过密码保护的压缩文件获取,也可以通过Hugging Face平台直接下载。
在模型评估方面,GPQA支持多种模型的基准测试,包括OpenAI的gpt-3.5-turbo-16k-0613和gpt-4。用户可以通过简单的命令行接口(CLI)运行评估脚本,选择不同的模型和提示类型(如零样本、少样本、链式思维等),并根据需要调整参数。
此外,GPQA还提供了开放书籍(open-book)基准测试,利用Bing搜索引擎的API,模型可以在回答问题时参考网络上的相关信息,进一步模拟真实世界的问答场景。
SYNTHETIC-1数据集
链接:https://huggingface.co/collections/PrimeIntellect/synthetic-1-67a2c399cfdd6c9f7fae0c37
SYNTHETIC-1 包含了涵盖数学、编程和科学领域的多样化任务推理轨迹,其正确性已通过任务特定的验证器确认。包含所有推理轨迹(包括被验证器判定为错误的轨迹)的原始 200 万数据集可在 PrimeIntellect/SYNTHETIC-1 下获取。
注意:除了原始数据外,本文还进行了后处理,生成了一个包含 90 万样本的 SFT 数据集和一个包含 1.1 万样本的偏好调优数据集。
数学问题(77.7 万样本):
- 任务:来自 NuminaMath 的竞赛级数学问题,通过基于 LLM 的后处理将选择题转换为自由形式问题,并过滤掉无法自动验证响应的问题(例如要求证明的问题)。
- 验证器:基于 math-verify 库的符号验证。
- 任务数据集:PrimeIntellect/verifiable-math-problems
算法编程问题(14.4 万样本):
- 任务:来自 Leetcode 等编程竞赛和平台的算法挑战,从 Apps、Codecontests、Codeforces 和 TACO 数据集中筛选。通过基于 LLM 的后处理,将 Python 问题转换为 Javascript、Rust 和 C++ 问题。
- 验证器:单元测试的容器化执行。
- 任务数据集:PrimeIntellect/verifiable-coding-problems
现实世界软件工程问题(7 万样本):
- 任务:源自 CommitPack 数据集中真实世界的 GitHub 提交。每个问题将提交前的代码文件与 LLM 生成的修改指令配对,这些指令基于原始提交消息和提交后文件状态的上下文生成。
- 验证器:LLM 评判器将 LLM 生成的代码与实际提交后的文件状态进行比较。
- 任务数据集:PrimeIntellect/real-world-swe-problems
开放式 STEM 问答(31.3 万样本):
- 任务:从 StackExchange 数据集中筛选出涵盖广泛技术和科学主题的问题。通过基于 LLM 的过滤,仅保留那些有客观正确答案的问题,排除基于意见的查询,并仅保留需要真正推理而非简单记忆信息的问题。
- 验证器:LLM 评判器通过将回答与最高赞答案进行比较来评分。
- 任务数据集:PrimeIntellect/stackexchange-question-answering
合成代码理解任务(6.1 万样本):
- 任务:完全合成的任务,目标是在给定代码和字符串输入的情况下,预测执行字符串转换的代码的输出。本文通过 LLM 提示生成任意字符串处理函数,并使用类似于 evol-instruct 的方案递归增加其复杂性。输入包括随机字符串和新闻文章片段,真实输出通过执行生成的代码获得。
- 验证器:LLM 预测的输出字符串直接与真实输出字符串进行比较,当完全匹配时判定为正确。
- 任务数据集:PrimeIntellect/synthetic-code-understanding
110k开源R1数据集
HF: https://huggingface.co/datasets/Congliu/Chinese-DeepSeek-R1-Distill-data-110k
MS: https://modelscope.cn/datasets/liucong/Chinese-DeepSeek-R1-Distill-data-110k
该数据集为中文开源蒸馏满血R1的数据集,数据集中不仅包含math数据,还包括大量的通用类型数据,总数量为110K。
Math:共计36987个样本,
Exam:共计2440个样本,
STEM:共计12000个样本,
General:共计58573,包含弱智吧、逻辑推理、小红书、知乎、Chat
等。
参考:开源中文DeepSeek-R1(满血)蒸馏数据集-110K
open-r1/OpenR1-Math-220k数学数据
链接:https://www.modelscope.cn/datasets/open-r1/OpenR1-Math-220k
OpenR1-Math-220k是一个用于数学推理的大规模数据集。它由22万个数学问题组成,DeepSeek R1为NuminaMath 1.5中的问题生成了两到四个推理轨迹。
金融推理数据
使用DeepSeek-R1为金融数据集生成推理轨迹(例如,股票价格预测、风险分析),并将这些知识蒸馏成一个金融领域知识较小模型finance-LLM,这块可以参考rehttps://medium.com/@prabhudev.guntur/how-to-distill-deepseek-r1-a-comprehensive-guide-c8ba04e2c28c
Magpie-Reasoning-V2数据集
1、Magpie-Reasoning-V2数据集,其中包含DeepSeek-R1生成的250K思路链推理样本,这些示例涵盖了数学推理、编码和一般问题解决等各种任务。https://huggingface.co/datasets/Magpie-Align/Magpie-Reasoning-V2-250K-CoT-Deepseek-R1-Llama-70B
Dolphin-R1
2、Dolphin-R1,包含80万个样本的数据集,其中的数据来自DeepSeek-R1和Geminiflash的生成结果,同时还有来自Dolphinchat的20万个样本。https://huggingface.co/datasets/cognitivecomputations/dolphin-r1,https://modelscope.cn/datasets/AI-ModelScope/dolphin-r1
R1-Distill-SFT
3、R1-Distill-SFT,有17000个样本,目的是创建数据以支持Open-R1项目,https://huggingface.co/datasets/ServiceNow-AI/,https://modelscope.cn/datasets/ServiceNow-AI/R1-Distill-SFT
NuminaMath-TIR工具类数据集
4、NuminaMath-TIR,工具类数据集。 https://www.modelscope.cn/datasets/AI-MO/NuminaMath-TIR,
NuminaMath-CoT数学题
5、NuminaMath-CoT,大约86万道数学题,每个解题过程都以“思维链”方式呈现。 https://www.modelscope.cn/datasets/AI-MO/NuminaMath-CoT
BAAI-TACO代码生成数据
6、BAAI-TACO,代码生成的基准,包含26443个问题。 https://modelscope.cn/datasets/BAAI/TACO
OpenThoughts-114k合成数据
7、OpenThoughts-114k,开放的合成推理数据集,包含11.4万个高质量样本,涵盖数学、科学、代码和谜题等领域。 https://modelscope.cn/datasets/open-thoughts/OpenThoughts-114k
Bespoke-Stratos-17k数据
8、Bespoke-Stratos-17k,对伯克利Sky-T1数据的复制,使用DeepSeek-R1创建了一个包含问题、推理过程和答案的数据集。 https://modelscope.cn/datasets/bespokelabs/Bespoke-Stratos-17k
clevr_cogen_a_train视觉推理数据
9、clevr_cogen_a_train,R1蒸馏视觉推理数据集。 https://huggingface.co/datasets/leonardPKU/clevr_cogen_a_train)-AR1-distilledvisualreasoningdataset.
S1k数据
10、S1k,训练S1模型的数据集,https://huggingface.co/datasets/simplescaling/s1K
Reference
[1] Open-R1:https://github.com/huggingface/open-r1
[2] r1 sft数据:shaafsalman/R1-Distill-SFT_merged_qa_dataset_1.1
[3] 让推理大模型如何思考很重要:回溯DeepSeek-R1中11个数据问题