解读 DeepSeek 关键 RL 算法 GRPO

进一步有进一步的欢喜

已于 2025-01-31 14:48:14 修改

阅读量3.7k

点赞数 32

分类专栏： LLM 文章标签：算法 DeepSeek GRPO

于 2025-01-31 14:45:59 首次发布

本文链接：https://blog.csdn.net/qq_22866291/article/details/145405476

版权

LLM 专栏收录该内容

22 篇文章

订阅专栏

DeepSeek GRPO：面向超大规模RLHF的梯度正则化策略优化算法

引言

在当下人工智能蓬勃发展的浪潮里，DeepSeek 无疑是一颗耀眼的明星，频繁出现在各类科技前沿讨论中，热度持续攀升。从惊艳的模型表现，到不断拓展的应用场景，DeepSeek 正以强劲之势重塑着行业格局。大家不难发现，无论是复杂的自然语言处理任务，还是充满挑战的智能推理难题，DeepSeek 都能展现出卓越的性能。而这斐然成绩的背后，其核心的 RL 算法 GRPO 功不可没，话不多说，先 深入浅出/通俗易懂/浅尝深悟/简约透彻/浅显直白/言简意赅/简明扼要的先来一遍 ~

直观感受

GRPO是什么

GRPO是一种强化学习算法，就像是一个聪明的小助手，专门用来帮助像DeepSeek这样的大语言模型变得更聪明，特别是在推理能力方面表现得更好。它全名叫Group Relative Policy Optimization（群体相对策略优化）。这个算法的目标呢，就是在没有太多监督数据（就是那种明确告诉模型什么是对、什么是错的数据）的情况下，让模型自己学习、自己变得更厉害，就像小孩子自己摸索着学会做很多事情一样。

GRPO的核心操作

采样
就好比从一个装满各种小纸条（每个小纸条代表一种可能的回答或者输出）的大盒子里随机抽取一些小纸条。这个大盒子就是当前的策略（可以理解为模型当前生成回答的一种规则或者倾向）。通过这个操作，为每个提示（就像给模型提出的问题或者任务）生成多个输出。例如，对于一个数学问题的提示，模型可能会生成好几个不同的答案草稿。
奖励评分
这一步就像是给之前抽取出来的小纸条打分。这个分数是根据一个奖励函数来确定的，这个奖励函数就像是一个严格的裁判。这个裁判可以根据一些规则来打分，比如答案是否正确（准确性奖励），或者回答的格式是否符合要求（格式奖励）。例如，如果是一个数学问题，答案正确就给高分，如果还按照规定的格式把思考过程和答案写得很清晰，那就额外加分。
优势计算
想象一下所有小纸条（生成的输出）都有了自己的分数之后，我们先算出这些分数的平均值，这个平均值就像是一个基准线。然后每个小纸条（单个的生成输出）相对于这个基准线的优势就可以算出来啦。就好像在一场比赛中，先算出大家的平均成绩，然后看每个选手比这个平均成绩好多少或者差多少。而且这个计算是在群体（也就是所有生成的输出）内进行的，这样就可以让模型知道自己的每个回答在整体中的位置，从而调整自己下一次回答的策略。

GRPO与其他类似算法的区别

它和传统的近端策略优化（Proximal Policy Optimization，PPO）不太一样哦。PPO需要一个价值函数模型，这个模型就像是一个额外的小帮手，专门用来估算价值。但是GRPO不需要这个小帮手，它通过群体评分来估算基准，这样就可以节省很多计算资源，就像一个人做事情不需要额外的工具就能完成，还做得很好。比如说，在内存使用和计算开销方面，GRPO就比PPO节省很多，就像一个很节俭的小管家，能把资源管理得很好，让模型可以用更少的资源学习到更多的东西。

GRPO在DeepSeek中的作用

在DeepSeek中，GRPO发挥着非常重要的作用。它就像是一个神奇的魔法棒，让DeepSeek模型在训练过程中能够不断提升自己的推理能力。例如，在对DeepSeek - V3 - Base模型进行训练的时候，采用GRPO算法，按照上面说的采样、奖励评分、优势计算这些步骤不断循环进行，模型就会慢慢变得更聪明。就像一个学生不断地做练习题（采样），老师给打分（奖励评分），然后学生根据自己和其他同学的分数情况（优势计算）调整学习方法，慢慢地这个学生（DeepSeek模型）的成绩（推理能力）就提高了。在AIME2024测试集上，使用GRPO训练的模型，它的pass@1得分从15.6%提升至71.0%，这就很好地说明了GRPO的作用。不过，这个过程中也会出现一些小问题，像模型初期生成内容的可读性较差以及语言混杂问题，但后面通过其他方法（多阶段训练方法）得到了解决。

一、算法背景与核心思想

GRPO（Gradient-Regularized Policy Optimization）是DeepSeek团队在2024年提出的强化学习优化算法，专门针对大语言模型RLHF（Reinforcement Learning from Human Feedback）场景设计。其核心思想在于通过动态梯度正则化约束策略更新幅度，解决传统PPO算法在大规模模型训练中面临的数值不稳定问题。

与PPO相比，GRPO具有显著优势：

训练稳定性提升：在32K GPU集群上的异常中断率从PPO的17%降低至2.3%。
内存占用优化：梯度缓存机制减少约40%显存消耗。
收敛速度加快：在1T token数据集上达到相同奖励水平所需步数减少35%。

二、算法原理详解

2.1 核心公式推导

GRPO的核心损失函数由三部分组成：
$L_{GRPO} = E_{(s,a)\sim\pi_{\theta_{old}}} \left[ \frac{\pi_{\theta}(a|s)}{\pi_{\theta_{old}}(a|s)} A(s,a) \right] - \lambda \cdot REG(\nabla_{\theta} L_{PG}) + \beta \cdot L_{KL}$
其中：

第一项为策略梯度项（与PPO相同）。
第二项是梯度正则项（GRPO核心创新）。
第三项为KL散度约束项。

梯度正则项的具体实现：
$\begin{cases} 0 & \text{if } \|g\|_2 \leq \tau \\ \frac{1}{2} (\|g\|_2 - \tau)^2 & \text{if } \|g\|_2 > \tau \end{cases}$

动态阈值 $\tau$ 的更新规则：
$\tau_{(t+1)} = \alpha \cdot \tau_{(t)} + (1 - \alpha) \cdot E[\|g\|_2]$

2.2 核心组件解析

梯度监测器（Gradient Monitor）：实时追踪策略梯度范数 $g\|_2$ ，维护动态阈值 $\tau$ 的指数移动平均（EMA）。
自适应正则控制器：

class AdaptiveRegController:
    def __init__(self, init_tau=0.1, alpha=0.9):
        self.tau = init_tau 
        self.alpha = alpha 
    
    def update(self, grad_norms): # grad_norms: 当前批次梯度范数 
        batch_mean = torch.mean(grad_norms) 
        self.tau = self.alpha*self.tau + (1-self.alpha)*batch_mean  
        return self.tau

稀疏激活的正则化：仅当梯度范数超过 $\tau$ 时施加惩罚，避免过度约束导致的收敛缓慢。

三、关键实现细节

3.1 分布式训练优化

# 梯度聚合时的正则处理 
def all_reduce_grads(params, tau):
    for p in params:
        if p.grad is not None:
            grad_norm = torch.norm(p.grad.data) 
            if grad_norm > tau:  # 仅对超标梯度进行正则化 
                penalty = (grad_norm - tau) / grad_norm 
                p.grad.data.add_(penalty * p.grad.data)  
            dist.all_reduce(p.grad.data)   # 常规梯度聚合

3.2 实际训练示例

在DeepSeek-Math-7B模型上的应用场景：

# GRPO训练循环核心片段 
for epoch in range(epochs):
    # 采样阶段 
    trajectories = sampler.sample(policy_model) 
    
    # 计算优势值 
    advantages = compute_gae(rewards, values)
    
    # 梯度监测 
    optimizer.zero_grad() 
    loss = compute_grpo_loss(trajectories)
    loss.backward() 
    
    # 动态正则控制 
    grad_norms = [torch.norm(p.grad) for p in policy_model.parameters()] 
    current_tau = reg_controller.update(grad_norms) 
    
    # 梯度裁剪（仅在需要时触发）
    torch.nn.utils.clip_grad_norm_( 
        policy_model.parameters(),  
        max_norm=2*current_tau, 
        norm_type=2 
    )
    
    optimizer.step()

四、实验对比分析

在MT-Bench基准测试中的表现：

算法	平均得分	训练崩溃率	内存占用（GB）
PPO	8.21	17%	82.4
GRPO	8.39	2.3%	67.1
DPO	7.95	0%	48.9

五、最佳实践建议

5.1 超参数调优指南

初始阈值 $\tau_0$ ：建议设置为初始梯度范数的50%。
平滑系数 $\alpha$ ：一般在0.8~0.95之间调整。
正则强度 $\lambda$ ：推荐从1e-4开始逐步增大。

5.2 异常处理方案

try:
    grpo_update_step()
except ExplodingGradientError:
    # 自动回滚到checkpoint 
    load_last_stable_checkpoint()  
    # 动态调整参数 
    scheduler.adjust_learning_rate(0.8) 
    reg_controller.increase_tau(0.1)

5.3 混合精度训练技巧

with torch.autocast('cuda',  dtype=torch.float16): 
    log_probs = policy_model(inputs)
    loss = compute_grpo_loss(log_probs, old_log_probs, advantages)