DeepSeek 训练数据模板生成指南(一次生成多条高质量数据集)
一、核心数据格式规范
1. 基础结构(JSONL格式)
每条数据需包含 prompt(输入指令)和 completion(期望输出)两个核心字段,采用单行JSON格式存储:
{"prompt": "如何评估基金的投资风险?", "completion": "基金风险评估需关注:1. 历史波动率...2. 最大回撤..."}
{"prompt": "用Python实现快速排序", "completion": "def quick_sort(arr):\n if len(arr) <= 1:\n return arr\n pivot = arr[len(arr)//2]..."}
2. 扩展字段(增强模型理解)
建议增加元数据字段提升训练效果:
{
"domain": "finance", // 领域标签(金融/医疗/教育等)
"difficulty": 3, // 难度等级(1-5级)
"context": ["基金基础概念", "风险控制原则"], // 关联知识点
"language": "zh-CN", // 语言版本
"created_by": "expert_003" // 数据来源标注
}
二、内容生成模板(10类场景)
1. 专业领域问答(占比30%)
# 金融领域模板
template = {
"prompt": f"作为{random.choice(['证券分析师','理财顾问'])},如何{task}?",
"completion": f"首先需要{step1},其次通过{step2}..."
}
# 医疗领域示例
{"prompt": "CT影像显示肺部磨玻璃结节,应如何判断良恶性?",
"completion": "需综合评估:1. 结节大小(>8mm高危) 2. 形态特征(分叶征、毛刺征) 3. 动态随访变化..."}
2. 多模态指令响应(占比15%)
{
"prompt": "解析下图心电图并输出诊断建议:[图片ID:ECG_202502]",
"completion": "该心电图显示:1. ST段弓背抬高(V2-V4导联) 2. Q波形成... 提示急性前壁心肌梗死"
}
3. 代码生成与调试(占比20%)
code_template = {
"prompt": f"用{lang}实现{function},要求时间复杂度O({complexity})",
"completion": f"def {function}(params):\n # 算法步骤注释\n {code_snippet}"
}
# 示例
{"prompt": "用PyTorch实现带注意力机制的LSTM文本分类",
"completion": "class AttnLSTM(nn.Module):\n def __init__(self, vocab_size...)"}
4. 多轮对话上下文(占比15%)
[
{"role": "user", "content": "我想了解量子计算对密码学的影响"},
{"role": "assistant", "content": "量子计算主要威胁RSA等基于大数分解的加密算法..."},
{"role": "user", "content": "那有哪些抗量子加密方案?"}
]
三、质量保障体系
1. 数据清洗流程
graph TD
A[原始数据采集] --> B(去重处理)
B --> C[敏感词过滤]
C --> D{质量评分}
D -->|评分>80| E[加入训练集]
D -->|评分≤80| F[人工复审]
2. 自动化校验脚本
def validate_entry(entry):
required_fields = ['prompt', 'completion']
if not all(field in entry for field in required_fields):
return False
if len(entry['prompt']) < 10 or len(entry['completion'])<20:
return False
if contains_sensitive_words(entry):
return False
return True
四、领域分布建议
领域 | 占比 | 子类示例 |
---|---|---|
金融经济 | 25% | 投资分析/风险管理/财报解读 |
医疗健康 | 20% | 诊断建议/药物交互/影像分析 |
信息技术 | 30% | 编程/网络安全/算法优化 |
法律文书 | 10% | 合同审查/案件分析/法规解读 |
生活服务 | 15% | 旅游规划/餐饮推荐/教育咨询 |
五、生成工具与资源
1. 推荐工具链
- 数据生成:使用Faker库生成基础模板数据
- 领域扩展:调用Wikipedia API获取专业术语
- 质量检测:DeepSeek-QAValidator(开源检测工具)
- 格式转换:jq命令行工具处理JSONL文件
通过上述模板体系,可系统化生成5000条符合DeepSeek训练要求的高质量数据。建议采用分批次生成策略(如每次生成500条),每批数据通过自动化校验后人工抽样审核(抽样率≥5%),最终合并为完整数据集。