权威指南:SFT数据集格式、用途与开源资源

本文对SFT常用数据集格式、用途及相关开源数据集进行总结说明

本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!

一、核心数据集格式与用途
  1. 指令-响应格式(单轮任务)
    • 结构{"instruction": "任务描述", "response": "目标输出"}
    • 用途:翻译、摘要、分类等单步任务。
    • 关键要求:指令需明确,输出需精准对齐任务目标(如分类标签需严格匹配)。
    • 代表数据集
      • MagicData-CLAM:覆盖多领域中文指令,5万条数据经人工设计分布,显著提升模型输出结构化能力 Hugging Face

往期文章推荐:

  1. 多轮对话格式

    • 结构:角色标记的对话序列(例如 [{"role": "user", "content": "..."}, {"role": "assistant", "content": "..."}]
    • 用途:对话系统、多轮问答,需保持上下文连贯性。
    • 关键要求:严格区分角色,完整保留历史对话。
    • 代表数据集
      • DISC-Med-SFT:复旦大学开源的47万条医疗对话数据,基于真实医患对话重构,强化多轮追问能力 GitHub
  2. 推理链格式(Chain-of-Thought, CoT)

    • 结构{"problem": "问题", "solution": "分步骤推导..."},含逻辑推理过程。
    • 用途:数学解题、代码生成等需逻辑推导的任务。
    • 关键要求:必须包含完整推理步骤,避免跳跃。
    • 代表数据集
      • AceReason-1.1-SFT(NVIDIA):267万数学样本 + 130万代码样本,集成OpenMathReasoning等权威源,过滤测试污染 Hyper.ai
      • s1K(李飞飞团队):1000条高难度数学问题,含分步解答,验证“少而精”数据价值 GitHub
  3. 结构化输出格式

    • 结构:输出为结构化对象(如列表、字典),如实体识别中的 [{ "Text": "实体", "Label": "类型" }]
    • 用途:实体识别、长文本生成、工具调用等需特定输出结构的任务。
    • 关键要求:定义清晰的输出规范。
    • 代表数据集
      • 中文NER SFT:整合CMeEE、CLUENER等10个开源集,提供提示模板规范实体输出 GitHub
      • LongWriter-6K-Filtered(ModelScope):666条长文本样本,强制模型遵循输出长度指令(如生成万字长文) ModelScope

二、权威开源数据集对比表
数据集名称领域数据量特点访问链接
AceReason-1.1-SFT数学/代码推理~397万逻辑链完整,无测试污染Hyper.ai
s1K数学推理1,000条高难度问题+分步解答,极简高效GitHub
LongWriter-6K-Filtered长文本生成666条输出长度严格遵循指令(>2000字)ModelScope
DISC-Med-SFT医疗对话47万条真实医患对话重构,支持多轮追问GitHub
中文NER SFT实体识别多源整合提示模板规范,覆盖10类公开数据集GitHub

三、数据集选用建议
  1. 质量 > 数量

    • 李飞飞团队实验证明:1,000条精选数据(s1K)的微调效果优于800K噪声数据,因高质量样本直接强化模型泛化边界。
    • LongWriter-6K经两步过滤(剔除无长度指令样本+低遵循度样本),数据量从6000→666条,但模型输出长度遵循率提升至近线性。
  2. 任务对齐关键点

    • 数学/代码推理:必须包含分步骤推导(CoT),否则模型无法学习逻辑链。例:AceReason数据集中每个样本均含 <think> 标签标记推理痕迹。
    • 长文本生成:需明确输出长度指令(如 “生成10000字”),否则模型默认截断。LongWriter数据要求指令中必须含 “Required Length” 字段。
    • 医疗/法律等专业领域:需专家审核知识准确性。DISC-Med-SFT基于医学知识图谱生成样本,并由GPT-4改写+人工校验。
  3. 高效训练方案

    • LoRA/QLoRA:单卡可训练(如 s1K 微调仅需7 H100 GPU小时)。
    • 数据蒸馏:用大模型生成合成数据(如 Google Gemini API 生成推理链)。

本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值