DeepSeek 训练数据模板生成指南

最新推荐文章于 2025-03-25 10:09:13 发布

He.Tech

最新推荐文章于 2025-03-25 10:09:13 发布

阅读量945

点赞数 3

文章标签：开发语言

本文链接：https://blog.csdn.net/Ht_121212/article/details/145870889

版权

DeepSeek 训练数据模板生成指南（一次生成多条高质量数据集）

一、核心数据格式规范

1. 基础结构（JSONL格式）

每条数据需包含 prompt（输入指令）和 completion（期望输出）两个核心字段，采用单行JSON格式存储：

{"prompt": "如何评估基金的投资风险？", "completion": "基金风险评估需关注：1. 历史波动率...2. 最大回撤..."}
{"prompt": "用Python实现快速排序", "completion": "def quick_sort(arr):\n    if len(arr) <= 1:\n        return arr\n    pivot = arr[len(arr)//2]..."}

2. 扩展字段（增强模型理解）

建议增加元数据字段提升训练效果：

{
  "domain": "finance",  // 领域标签（金融/医疗/教育等）
  "difficulty": 3,      // 难度等级（1-5级）
  "context": ["基金基础概念", "风险控制原则"],  // 关联知识点
  "language": "zh-CN",  // 语言版本
  "created_by": "expert_003"  // 数据来源标注
}

二、内容生成模板（10类场景）

1. 专业领域问答（占比30%）

# 金融领域模板
template = {
    "prompt": f"作为{random.choice(['证券分析师','理财顾问'])}，如何{task}？",
    "completion": f"首先需要{step1}，其次通过{step2}..."
}
# 医疗领域示例
{"prompt": "CT影像显示肺部磨玻璃结节，应如何判断良恶性？", 
 "completion": "需综合评估：1. 结节大小（＞8mm高危） 2. 形态特征（分叶征、毛刺征） 3. 动态随访变化..."}

2. 多模态指令响应（占比15%）

{
  "prompt": "解析下图心电图并输出诊断建议：[图片ID:ECG_202502]",
  "completion": "该心电图显示：1. ST段弓背抬高（V2-V4导联） 2. Q波形成... 提示急性前壁心肌梗死"
}

3. 代码生成与调试（占比20%）

code_template = {
    "prompt": f"用{lang}实现{function}，要求时间复杂度O({complexity})",
    "completion": f"def {function}(params):\n    # 算法步骤注释\n    {code_snippet}"
}
# 示例
{"prompt": "用PyTorch实现带注意力机制的LSTM文本分类", 
 "completion": "class AttnLSTM(nn.Module):\n    def __init__(self, vocab_size...)"}

4. 多轮对话上下文（占比15%）

[
  {"role": "user", "content": "我想了解量子计算对密码学的影响"},
  {"role": "assistant", "content": "量子计算主要威胁RSA等基于大数分解的加密算法..."},
  {"role": "user", "content": "那有哪些抗量子加密方案？"}
]

三、质量保障体系

1. 数据清洗流程

graph TD
    A[原始数据采集] --> B(去重处理)
    B --> C[敏感词过滤]
    C --> D{质量评分}
    D -->|评分>80| E[加入训练集]
    D -->|评分≤80| F[人工复审]

2. 自动化校验脚本

def validate_entry(entry):
    required_fields = ['prompt', 'completion']
    if not all(field in entry for field in required_fields):
        return False
    if len(entry['prompt']) < 10 or len(entry['completion'])<20:
        return False
    if contains_sensitive_words(entry):
        return False
    return True

四、领域分布建议

领域	占比	子类示例
金融经济	25%	投资分析/风险管理/财报解读
医疗健康	20%	诊断建议/药物交互/影像分析
信息技术	30%	编程/网络安全/算法优化
法律文书	10%	合同审查/案件分析/法规解读
生活服务	15%	旅游规划/餐饮推荐/教育咨询