本文对SFT常用数据集格式、用途及相关开源数据集进行总结说明
本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!
一、核心数据集格式与用途
- 指令-响应格式(单轮任务)
- 结构:
{"instruction": "任务描述", "response": "目标输出"}
- 用途:翻译、摘要、分类等单步任务。
- 关键要求:指令需明确,输出需精准对齐任务目标(如分类标签需严格匹配)。
- 代表数据集:
- MagicData-CLAM:覆盖多领域中文指令,5万条数据经人工设计分布,显著提升模型输出结构化能力 Hugging Face。
- 结构:
往期文章推荐:
- 20.信息论至AI实践:交叉熵的原理全景与应用深度解析
- 19.*SFT深度实践指南:从数据构建到模型部署的全流程解析
- 18.批判式微调(CFT):原理、架构与高效推理训练新范式
- 17.LoRA:大模型低秩适配技术全景——原理、演进与高效微调革命
- 16.SFT:大型语言模型专业化定制的核心技术体系——原理、创新与应用全景
- 15.预训练模型:大规模数据预学习范式——定义、原理与演进逻辑
- 14.OpenAI GPT-4o模型性能评估体系解析:多模态能力、安全性与应用效能的系统性验证
- 13.OpenAI GPT-4o技术详解:全能多模态模型的架构革新与生态影响
- 12.AGI:通用人工智能的进击之路——从理论定义到现实挑战的全面解析
- 11.迁移学习:知识复用的智能迁移引擎 | 从理论到实践的跨域赋能范式
- 10.KL散度:信息差异的量化标尺 | 从概率分布对齐到模型优化的核心度量
- 9.知识蒸馏:模型压缩与知识迁移的核心引擎
- 8.TinyBERT:知识蒸馏驱动的BERT压缩革命 | 模型小7倍、推理快9倍的轻量化引擎
- 7.BERT:双向Transformer革命 | 重塑自然语言理解的预训练范式
- 6.MoE混合专家模型:千亿参数的高效推理引擎与架构革命
- 5.RLHF:人类反馈强化学习 | 对齐AI与人类价值观的核心引擎
- 4.Transformer:自注意力驱动的神经网络革命引擎
- 3.[特殊字符] LLM(大型语言模型):智能时代的语言引擎与通用推理基座
- 2.陶哲轩:数学界的莫扎特与跨界探索者
- 1.48次复乘重构计算极限:AlphaEvolve终结56年矩阵乘法优化史
-
多轮对话格式
- 结构:角色标记的对话序列(例如
[{"role": "user", "content": "..."}, {"role": "assistant", "content": "..."}]
) - 用途:对话系统、多轮问答,需保持上下文连贯性。
- 关键要求:严格区分角色,完整保留历史对话。
- 代表数据集:
- DISC-Med-SFT:复旦大学开源的47万条医疗对话数据,基于真实医患对话重构,强化多轮追问能力 GitHub。
- 结构:角色标记的对话序列(例如
-
推理链格式(Chain-of-Thought, CoT)
-
结构化输出格式
- 结构:输出为结构化对象(如列表、字典),如实体识别中的
[{ "Text": "实体", "Label": "类型" }]
。 - 用途:实体识别、长文本生成、工具调用等需特定输出结构的任务。
- 关键要求:定义清晰的输出规范。
- 代表数据集:
- 中文NER SFT:整合CMeEE、CLUENER等10个开源集,提供提示模板规范实体输出 GitHub。
- LongWriter-6K-Filtered(ModelScope):666条长文本样本,强制模型遵循输出长度指令(如生成万字长文) ModelScope。
- 结构:输出为结构化对象(如列表、字典),如实体识别中的
二、权威开源数据集对比表
数据集名称 | 领域 | 数据量 | 特点 | 访问链接 |
---|---|---|---|---|
AceReason-1.1-SFT | 数学/代码推理 | ~397万 | 逻辑链完整,无测试污染 | Hyper.ai |
s1K | 数学推理 | 1,000条 | 高难度问题+分步解答,极简高效 | GitHub |
LongWriter-6K-Filtered | 长文本生成 | 666条 | 输出长度严格遵循指令(>2000字) | ModelScope |
DISC-Med-SFT | 医疗对话 | 47万条 | 真实医患对话重构,支持多轮追问 | GitHub |
中文NER SFT | 实体识别 | 多源整合 | 提示模板规范,覆盖10类公开数据集 | GitHub |
三、数据集选用建议
-
质量 > 数量
- 李飞飞团队实验证明:1,000条精选数据(s1K)的微调效果优于800K噪声数据,因高质量样本直接强化模型泛化边界。
- LongWriter-6K经两步过滤(剔除无长度指令样本+低遵循度样本),数据量从6000→666条,但模型输出长度遵循率提升至近线性。
-
任务对齐关键点
- 数学/代码推理:必须包含分步骤推导(CoT),否则模型无法学习逻辑链。例:AceReason数据集中每个样本均含
<think>
标签标记推理痕迹。 - 长文本生成:需明确输出长度指令(如 “生成10000字”),否则模型默认截断。LongWriter数据要求指令中必须含 “Required Length” 字段。
- 医疗/法律等专业领域:需专家审核知识准确性。DISC-Med-SFT基于医学知识图谱生成样本,并由GPT-4改写+人工校验。
- 数学/代码推理:必须包含分步骤推导(CoT),否则模型无法学习逻辑链。例:AceReason数据集中每个样本均含
-
高效训练方案
- LoRA/QLoRA:单卡可训练(如 s1K 微调仅需7 H100 GPU小时)。
- 数据蒸馏:用大模型生成合成数据(如 Google Gemini API 生成推理链)。
本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!