DeepSeek大模型训练的四个关键阶段：预训练（PreTraining）、监督微调（SFT）、奖励建模和基于强化学习的优化

最新推荐文章于 2025-03-31 11:20:09 发布

大模型微调部署

最新推荐文章于 2025-03-31 11:20:09 发布

阅读量2.2k

点赞数 27

文章标签：人工智能 AI大模型深度学习语言模型 ai DeepSeek 预训练

本文链接：https://blog.csdn.net/star_nwe/article/details/145678540

版权

在训练像DeepSeek、ChatGPT这类大型语言模型时，通常包含四个关键阶段：预训练（PreTraining）、监督微调（Supervised FineTuning, SFT）、奖励建模（Reward Modeling）和基于强化学习的优化（Reinforcement Learning）。这四个阶段逐步赋予模型通用语言能力、任务适配性，以及对齐人类价值观的能力。

一、预训练（PreTraining）

目标： 让模型学习语言的通用模式和知识。

方法： 使用海量无标注文本（如书籍、网页、代码等），通过自监督学习（SelfSupervised Learning）训练模型。典型任务是掩码语言建模（Masked Language Modeling, MLM）或自回归生成（如预测下一个词）。

特点：

数据规模极大（TB级），涵盖广泛领域。
模型通过预测被掩盖的词或生成后续文本，学习词法、句法、语义以及知识关联。
输出的是基座模型（Base Model），如GPT3、LLaMA等，具备通用语言能力，但缺乏对特定任务或人类偏好的适配性。

二、监督微调（Supervised FineTuning, SFT）

目标： 让模型适应特定任务或遵循指令。

方法： 使用少量高质量的人工标注数据（如问答对、指令响应对），通过监督学习对预训练模型进行微调。例如，输入“写一首关于春天的诗”，输出人类标注的高质量诗歌。

特点：

数据量远小于预训练（可能仅数千条），但标注质量要求极高。
模型学会理解任务格式、遵循指令，但可能仍存在生成内容不安全或不一致的问题。
输出的是SFT模型，初步具备任务执行能力。

三、奖励建模（Reward Modeling）

目标： 训练一个能模拟人类偏好的奖励模型（Reward Model, RM），为后续强化学习提供评估信号。

方法：

数据收集：人工标注员对同一输入的不同模型输出进行排序（如A比B更好），形成偏好数据集。
训练RM：将SFT模型的输出输入RM，训练其预测人类偏好（如通过对比学习或排序损失）。

特点：

RM是一个小型模型（如6B参数，远小于主模型），专注于评估生成内容的质量、安全性、有用性等。
RM的奖励信号可能包含多维度（如事实性、无害性、流畅性）。

四、基于强化学习的优化（Reinforcement Learning）

目标： 让模型生成更符合人类偏好的内容。

方法： 使用强化学习算法（如PPO, Proximal Policy Optimization），以RM为奖励信号，优化SFT模型的策略。

流程：

输入提示（Prompt）生成多个候选响应。
RM为每个响应打分（Reward）。
通过PPO更新模型参数，最大化奖励信号的期望值。

关键技巧：

KL散度约束：防止模型偏离原始SFT模型太远，导致输出不可控。
多轮迭代：反复生成评估更新，逐步提升性能。
输出：最终的对齐模型（Aligned Model），如ChatGPT，能生成更安全、有用、符合伦理的内容。

五、四个阶段的关系

1. 递进性：

预训练提供语言基础 → 监督微调赋予任务能力 → 奖励建模量化人类偏好 → 强化学习实现对齐优化。

2. 数据效率：

预训练依赖大量无标注数据，而后续阶段用少量高质量标注数据逐步精细化调整。

3. 对齐人类价值观：

通过RM和强化学习，模型从“能生成文本”升级为“生成符合人类期望的文本”。

完成这四个阶段，模型从“语言统计机器”逐步转化为“有用、安全、可控”的AI助手。

六、DeepSeek是否严格遵循四阶段训练流程？

从技术必要性来看，核心阶段（预训练→监督微调→强化学习）通常不可或缺，但具体实现可能有灵活调整：

（1）预训练（PreTraining）

必须存在：

所有大语言模型的基础能力（如语法、常识、逻辑）均依赖预训练阶段。DeepSeek必然经过此阶段，使用互联网文本、书籍、代码等数据进行自监督学习（如预测下一个词）。

潜在差异：

数据来源可能侧重中文语境（如中文网页、社交媒体），加强本土化知识。

可能采用更高效的训练技术（如稀疏训练、课程学习）加速收敛。

（2）监督微调（SFT）

必要阶段：

将预训练模型的通用能力适配到对话任务，需使用高质量的指令响应对进行微调（如人工标注的问答数据）。

潜在差异：

可能结合多任务学习（如同时优化对话、摘要、翻译），提升泛化性。

数据标注可能融入本土文化偏好（如中文成语、社会规范）。

（3）奖励建模（RM）

通常需要，但实现方式可能灵活：

奖励建模：

若需对齐人类价值观（如安全性、有用性），需训练奖励模型量化偏好。DeepSeek可能通过人工标注的偏好数据（如对多个回答排序）训练RM，也可能采用其他反馈机制（如用户隐式反馈）。

（4）强化学习（RL）

主流的PPO（Proximal Policy Optimization）算法大概率被采用，但可能优化奖励函数设计（如增加多样性惩罚项）或引入多目标优化（如平衡准确性与安全性）。

可能的简化情况：

若模型定位为轻量级应用，可能跳过RM和RL，仅通过SFT实现基础对齐，但会牺牲生成内容的质量和安全性。

七、 DeepSeek的潜在技术优化点

尽管核心阶段与主流LLM一致，DeepSeek可能在以下方面进行创新：

1. 数据侧优化：

预训练数据中加强中文语料占比，优化本土化表达（如网络用语、方言）。
监督微调阶段引入领域专家知识（如法律、医疗垂直领域）。

2. 模型架构改进：

采用混合专家模型（MoE）提升推理效率。
集成检索增强生成（RAG），减少幻觉问题。

3. 对齐技术调整：

结合宪法AI（Constitutional AI）约束生成内容，替代部分RM功能。
使用多模态反馈（如图文结合）优化奖励模型。

八、如何系统学习掌握AI大模型？

AI大模型作为人工智能领域的重要技术突破，正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口，掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程，需要从基础开始，逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源，包括：AI大模型全套学习路线图（从入门到实战）、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等，资料免费分享！

1. 成长路线图&学习规划

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。

这里，我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的，我们精选了一系列深入探讨大模型技术的书籍和学习文档，它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。（书籍含电子版PDF）

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说，书籍这些纯文字类的学习教材会觉得比较晦涩难以理解，因此，我们提供了丰富的大模型视频教程，以动态、形象的方式展示技术概念，帮助你更快、更轻松地掌握核心知识。

在这里插入图片描述

4. 2024行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

5. 大模型项目实战

学以致用 ，当你的理论知识积累到一定程度，就需要通过项目实战，在实际操作中检验和巩固你所学到的知识，同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量，更需要充分的准备。

在你已经掌握了大模型技术之后，就需要开始准备面试，我们将提供精心整理的大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包，有需要的小伙伴可以微信扫描下方CSDN官方认证二维码，免费领取【保证100%免费】