强化学习驱动的大语言模型LLM中优化策略-deepseek为例

Black_Rock_br

已于 2025-04-14 15:36:25 修改

阅读量1.2k

点赞数 48

文章标签：语言模型人工智能自然语言处理

于 2025-04-14 15:35:55 首次发布

本文链接：https://blog.csdn.net/Black_Rock_br/article/details/147223646

版权

强化学习之言：

在大型语言模型（LLM）兴起之前，我一直专注于强化学习（RL）算法的研究。最近几周，我一直在思考强化学习是如何在优化LLM中发挥作用的。从基于人类反馈的微调，到确保模型在多样化场景中的稳定泛化，强化学习方法已经在现代人工智能领域开辟了一个不可或缺的领域。在这篇文章中，我将探讨不同强化学习方法之间的差异，分析纯监督学习方法的局限性，解释为什么将监督微调（SFT）与强化学习相结合（例如DeepSeek-R1的训练方式）能够产生更好的效果，以及强化学习固有的探索性如何增强模型的泛化能力和对分布外数据的处理能力。

LLM中的强化学习：

RL方法共享相同的更新原则：即通过对目标函数进行梯度更新来调整模型参数。最简单的形式表示为：

在训练过程中，首先计算一个比率，然后将其乘以优势估计（通常通过广义优势估计（GAE）来计算）。为了防止策略更新偏离旧策略过远，还会应用裁剪操作。这种对目标函数的精心设计的更新方式，能够在策略发生较大变化时提供稳定性。

人类反馈的强化学习（RLHF）是在近端策略优化（PPO）方法的基础上，引入人类偏好数据的一种方法。具体来说，首先利用人类标注者提供的成对比较或评分来训练奖励模型。在随后的强化学习阶段，使用这个奖励信号来优化模型，并且通常会结合PPO的技术，如裁剪和KL散度惩罚，以确保更新是渐进的。DeepSeek-R1的GRPO进一步改进了这一思想，去掉了PPO中单独的价值函数。它不再依赖于状态价值的外部估计，而是针对每个提示词生成一组回复，通过标准化得到的奖励分数来计算群体相对优势。这种方法简化了架构，减少了计算开销，同时仍然能够捕捉组内回复的差异性。

然而，在使用强化学习训练大型语言模型（LLM）时，奖励的计算是一个限制因素。在模型输出可以通过代码或某种测试验证的场景中，奖励更容易定义。例如，我们可以提示模型给出答案，让它运行并找到解决方案。这使得强化学习可以无限地训练模型，从而产生令人惊叹的效果。然而，在输出难以验证的开放领域，我们通常需要训练奖励模型来判断输出。许多研究表明，这可能会导致“奖励黑客”现象，即模型学会输出能够获得高奖励的内容，但这些输出并非我们真正想要的。在这种情况下，就不能使用强化学习来训练模型。

RLHF的伪代码示例

GRPO：“思考”与“回答”分离带来的优化突破

GRPO 的一大创新之处在于将模型的输出明确划分为两个部分：<think> 和 <answer>，分别对应思考过程和最终回答。这种分离设计不仅提升了模型的灵活性，还显著增强了其推理能力。具体来说：

- 鼓励自由探索：

在 <think> 部分，模型可以自由地展开多角度的思考、尝试不同的推理路径，而不必担心这些中间步骤会直接影响奖励评分。这种机制为模型提供了更大的探索空间。

- 模拟人类思维模式：

这一设计更贴近人类的思维方式——人们通常会在脑海中权衡多种可能性，最终才得出结论。通过分离思考与回答，模型能够更好地模拟这种自然的思维流程。

- 支持复杂推理任务：

模型可以在 <think> 部分构建较长的推理链条，而仅对最终的 <answer> 部分进行评价。这使得模型能够处理需要深层次推理的任务，而不会因过早优化中间步骤而限制性能。

尽管 <think> 部分不直接参与奖励计算，它仍然在训练过程中发挥重要作用。具体而言，虽然奖励模型仅对 <answer> 部分打分，但 <think> 部分的内容会通过反向传播影响模型参数的更新。这意味着，模型需要学习如何生成有助于高质量回答的思考过程，从而间接提升整体性能。

在实际应用中，GRPO 的训练流程可以概括为以下步骤：
1. 模型根据输入提示生成完整的响应，包括 <think> 部分（思考过程）和 <answer> 部分（最终回答）。
2. 使用奖励模型对每个响应中的 <answer> 部分进行评分，并计算相应的优势值。
3. 基于这些评分更新模型参数，涵盖生成 <think> 和 <answer> 的整个过程，确保思考和回答两部分都能得到优化。

这种设计巧妙地平衡了“自由思考”与“结果导向”，使模型既能灵活探索多种可能性，又能高效地生成高质量的回答。

GRPO的伪代码示例

为什么不只对最佳生成答案进行监督微调

监督微调（SFT）通常通过训练模型模仿单一目标输出来优化性能。然而，语言生成具有天然的随机性，对于同一个提示，往往存在多种合理的回答。如果仅关注所谓的“最佳”答案，模型可能会过拟合到一个狭窄的输出空间，从而无法捕捉语言的多样性。这种局限性不仅会影响模型在不同情境下的表现，还可能导致错过更适合特定场景的回答。类似的问题也出现在自动驾驶领域中的模仿学习中——如果驾驶轨迹与训练数据稍有偏差，模型可能无法正确应对，导致策略失效。这种分布外泛化问题是一个重要的研究方向，而强化学习（RL）和离线强化学习（Offline RL）被认为是解决这一问题的有效方法。

此外，奖励或偏好信号通常基于整个生成序列的质量，而非单个词或决策点的表现。只有当整个序列生成完成后，才能对其质量进行全面评估。策略梯度方法通过优化长期奖励，能够有效地将最终的奖励反馈分配到每个单独的决策步骤中。例如，使用优势估计和时间差分方法，可以将奖励传播回序列中的每个决策点，从而实现更精细的优化。与此相比，纯监督学习难以完成这种跨序列的奖励分配，因为其目标函数通常是局部的、孤立的。

另一个挑战在于人类反馈信号的特性。许多人类反馈是不可微的，或者仅以标量形式（如“喜欢”或“不喜欢”评级）提供。监督学习依赖于可微目标函数，例如分类任务中的交叉熵损失，它通过计算模型预测概率分布与真实标签之间的差异来进行优化。这种方法在简单分类问题中是直接且有效的，因为离散标签可以被无损地转换为概率分布。然而，人类反馈更加复杂，通常是对整个生成序列的整体评价，而不是针对单个决策点的局部反馈。此外，这些反馈往往是相对的或比较性的，进一步增加了优化难度。相比之下，策略梯度方法可以直接优化期望奖励，允许奖励函数的形式更加多样化，从而更好地适应复杂的反馈机制。

最后，强化学习本身包含探索机制，这使其在优化过程中不局限于单一答案，而是鼓励模型采样和评估多个可能的输出轨迹。通过探索，模型不仅能够学习哪些输出是首选的，还能了解所有可能回答的整体分布情况。这种全局视角有助于引导出更强大的策略，使模型能够更好地泛化到训练集之外的提示，并适应多样化的环境。

SFT后接RL的优势

如今，大型语言模型（LLM）的训练通常遵循一个两阶段的过程：首先是监督微调（SFT），随后是强化学习（RL）。DeepSeek-R1便是这种训练模式的典型代表。以下是我对这种组合为何如此有效的理解。

在第一阶段，即监督微调（SFT）阶段，模型会在经过精心整理的高质量人工标注数据上进行训练。这一步极为关键，它为模型奠定了坚实的基础，使其能够掌握语言的基本模式和结构。通过监督学习，模型的初始输出方差得以降低，同时为后续的优化设定了一个基准分布。

当模型具备了稳固的基础之后，强化学习（RL）阶段便登场了。在这一阶段，模型借助反映人类偏好的奖励模型、模拟人类偏好的训练模型，甚至是基于规则定义的奖励来优化自身的策略。在RL过程中，策略梯度等技术被用于优化目标函数，而裁剪和KL散度惩罚等机制则确保策略更新不会偏离原始的SFT模型过远，从而避免可能损害性能的剧烈波动。这可以被视为一种微调，它推动模型朝着更好的性能和更优的推理方向发展，同时又保留了在SFT阶段所学到的有价值信息。

模型先从通过SFT学习较为简单且定义明确的任务入手，随后在RL阶段逐步应对更为复杂的决策问题。有了良好的基础，RL阶段可以探索替代的行动路径以实现改进，同时又始终处于由参考模型所划定的“安全”区域内。强大的初始策略与通过裁剪和KL惩罚进行的谨慎策略更新相结合，确保了整个学习过程的稳定性和高效性。

从实际应用的角度来看，SFT阶段基于专家数据为模型提供了明确的指导方向。与此同时，RL阶段则允许模型优化长期奖励，捕捉人类偏好的细微差别，并探索那些可能优于人类生成数据的其他可能性，学习围绕数据集轨迹的分布。通过这种方式，模型不仅能够模仿高质量的输出，还能够根据动态且有时模糊的奖励信号来精细化自身的行为。