【速写】R1: 从策略梯度到GRPO一些看法_grpo是onpolicy还是offpolicy-CSDN博客

本文链接：https://blog.csdn.net/CY19980216/article/details/146460808

文章目录

正文
附：DPO算法

正文

策略梯度上升法：
$\theta_{i+1}=\theta_i+\alpha\mathbb{E}_{\tau\sim\pi_\theta}\left[\sum_{t=0}^T\nabla_\theta\log\pi(a_t|s_t)A_t\right]\\ \nabla_{\theta}J(\pi_\theta)=\mathbb{E}_{\tau\sim(\pi_\theta,T)}\left[\sum_{t=0}^T\nabla_\theta\log\pi_\theta(a_t|s_t)R(\tau)\right]$
Q-learning是off-policy，SARSA是on-policy，两者的本质区别在于如何选取下一个action，前者纯贪心，后者是epsilon贪心

on-policy是边实践边学习，数据利用率低：
$\mathbb{E}_{\tau\sim p_{\theta}(\tau)}[R(\tau)\nabla\log p_{\theta}(\tau)]$
而off-policy是观察他人学习，这样数据利用率高：
$\mathbb{E}_{\tau\sim p_{\theta'}(\tau)}\left[\frac{p_\theta(\tau)}{p_{\theta'}(\tau)}R(\tau)\nabla\log p_{\theta}(\tau)\right]$
$\theta'$ 可以不断采样，然后我们更新用的是 $\theta$ ，但还是希望两个参数差的不多，这样TRPO就通过引入KL散度的约束

这里的 $\tau$ 就是一段episode，平凡情况下，可以理解为一对state-action，即 $(S, A)$ ，因此也有的PG的统一写法是：

$\nabla J(\theta) = \mathbb{E}_{s \sim \pi_b, a \sim \pi_b}\left[\frac{\pi_t(a|s)}{\pi_b(a|s)} Q^{\pi_t}(s,a) \nabla \log \pi_t(a|s)\right]$

TRPO是一个带约束的目标函数（约束是一个KL散度，使得新的θ和旧的θ分布差别不会过大），目标函数则是一个使得在旧策略下的优势函数期望尽可能大的一个东西
$J^{\theta'}_{\rm TRPO}(\theta)=\mathbb{E}_{(s_t,a_t)\sim\pi_{\theta'}}\left[\frac{p_\theta(a_t|s_t)}{p_{\theta'}(a_t|s_t)}A^{\theta'}(s_t,a_t)\right],\quad s.t.\quad KL(\theta,\theta')<\delta$
实际操作中，迭代到第 $k$ 步的时候：
$J^{\theta^k}(\theta)\approx \sum_{(s_t,a_t)}\frac{p_\theta(a_t|s_t)}{p_{\theta^k}(a_t|s_t)}A^{\theta^k}(s_t,a_t)$
本身来说：
$\frac{p_\theta(a_t|s_t)}{p_{\theta^k}(a_t|s_t)}$
或者说是：
$\frac{\pi_\theta(a_t|s_t)}{\pi_{\theta^k}(a_t|s_t)}$
就是一个概率比，没有量纲

而 $KL(\theta,\theta')$ ，刻画的并非参数上的距离，而是行为上的距离，即给定（同样的） $s_t$ ，会输出一个动作空间上的概率分布 $\pi(a_t|s_t)$ ，目标函数中的kldivergence度量的是 $\pi_\theta(a_t|s_t)$ 和 $\pi_{\theta^k}(a_t|s_t)$ 之间的距离

PPO就是把TRPO里的约束条件（KL散度）直接变到了目标函数中去：
$J^{\theta'}_{\rm PPO}=J^{\theta'}(\theta)-\beta KL(\theta,\theta')\\$
其中：
$J^{\theta'}(\theta)=\mathbb{E}_{(s_t,a_t)\sim\pi_{\theta'}}\left[\frac{p_\theta(a_t|s_t)}{p_{\theta'}(a_t|s_t)}A^{\theta'}(s_t,a_t)\right]$
最终的损失形式就是：
$\mathcal{L}^{\rm PENALTY}(\theta)=\mathbb{E}_t\left[\tilde A_t\frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{\rm old}}(a_t|s_t)}-\beta D_{KL}(\pi_{\theta_{\rm old}}(\cdot|s_t) \| \pi_{\theta}(\cdot|s_t))\right]$

上面这个是PPO1，后来有个PPO2，也称为PPO-clip
$L(s,a,\theta_k,\theta)=\min\left(\frac{\pi_\theta(a|s)}{\pi_{\theta^k}(a|s)}A^{\pi_{\theta_k}}(s,a),clip\left(\frac{\pi_\theta(a|s)}{\pi_{\theta^k}(a|s)},1-\epsilon,1+\epsilon\right)A^{\pi_{\theta_k}}(s,a)\right)$
实际实现上PPO2是通过：
$J^{\theta_k}_{\rm PPO_2}(\theta)\approx\sum_{s_t,a_t}\min\left(\frac{p_\theta(a_t|s_t)}{p_{\theta^k}(a_t|s_t)}A^{\theta^k}(s_t,a_t),clip\left(\frac{p_\theta(a_t|s_t)}{p_{\theta^k}(a_t|s_t)},1-\epsilon,1+\epsilon\right)A^{\theta^k}(s_t,a_t)\right)$

GRPO是一个off-policy的算法

PPO里需要估计GAE（广义优势估计），而GAE需要v（状态价值模型），GRPO把v给省略掉了

GAE是这样计算的：
$A (s, a) = Q (s, a) - V (s)$
其中 $Q(s,a)=r+\gamma V(s')$

因此整体上就是 $A(s,a)=r+\gamma V(s')-V(s)$ ，这个其实也叫强化学习的TDerror

这个GAE在PPO里是需要估计出来的， $V (s)$ 也就是状态价值函数

GRPO不需要V也可以估计，具体方法是：
$\hat A_{i,t}=\tilde r_i=\frac{r_i-mean({\bf r})}{std({\bf r})}$
也就是GRPO图里面它采样了一堆的 $r_1,...,r_G$ ，作为一个group

因为本身 $V (s)$ 也是估计出来的，GAE本质上就是优势的估计，这本来就可以通过采样来近似

因此GRPO里就需要生成一组回答，然后分别计算 $r$ （奖励），然后看看优势

在这里插入图片描述

论文（deepseekmath）的4.1.1节（From PPO to GRPO）里也写了PPO的目标函数，就是上面PPO2的情况，只是所谓的action都是下一个生成的token（ $o_{i,t}$ ）

而GRPO的公式，不看组后的KL散度的部分的话，前面是与PPO是完全一样的（只是优势函数A这里用的是 $\hat A_{i,t}$ ，PPO里面还是用 $V$ 来估计的）

实际实现的算法如下，这是别人搞的一个标注，是有帮助的

这里GRPO的争议之处在于10-11行的部分：

可以持续的更新 $\pi_\theta$
这里在https://huggingface.co/docs/trl/main/en/grpo_trainer里：
- 它们觉得这里的 $\theta_{\rm old}$ 和 $\theta$ 是一样的，这样就退化成了on-policy
- 但实际上还是off-policy
- 这里目前文档上

在这里插入图片描述

写的确实是有争议的，上面一个no grad其实就是默认了分子分母是一样的，这样就是off-policy的了

但是原文（即下面一个公式），则是很清晰的是old和new两个theta，必然是off-policy的

附：DPO算法

DPO算法全流程解析

1. 前置条件

在开始DPO训练前，你需要准备好：

监督微调模型 (SFT Model)：经过常规微调的基础语言模型
偏好数据集：包含三元组 (prompt x, 优选回答 y_w, 劣选回答 y_l)
参考模型 (Reference Model, π_ref)：直接复制SFT模型并冻结参数

2. 关键数学推导

DPO的核心是通过变量替换消除显式奖励函数：

传统RLHF目标：
$max_π E_{x,y∼π} [r(x,y)] - β D_{KL}(π||π_{ref})$

通过Bradley-Terry偏好模型建立联系：

$p*(y_w ≻ y_l|x) = σ(r*(x,y_w) - r*(x,y_l))$

经过数学变换得到DPO目标：

$L_{DPO}(π_θ; π_{ref}) = -E_{(x,y_w,y_l)} \left[ \log σ\left( β \log \frac{π_θ(y_w|x)}{π_{ref}(y_w|x)} - β \log \frac{π_θ(y_l|x)}{π_{ref}(y_l|x)} \right) \right]$

3. 训练步骤

for batch in dataloader:
    x, y_w, y_l = batch
    
    # 获取策略模型和参考模型的对数概率
    logp_yw = π_θ(y_w|x)  # 当前策略对优选回答的logprob
    logp_yl = π_θ(y_l|x)  # 当前策略对劣选回答的logprob
    ref_logp_yw = π_ref(y_w|x)  # 参考模型对y_w的logprob
    ref_logp_yl = π_ref(y_l|x)  # 参考模型对y_l的logprob
    
    # 计算对数比值
    log_ratio_w = logp_yw - ref_logp_yw
    log_ratio_l = logp_yl - ref_logp_yl
    
    # 计算DPO损失
    loss = -logsigmoid(β * (log_ratio_w - log_ratio_l))
    
    # 反向传播
    loss.backward()
    optimizer.step()

4. 超参数作用

参数	典型值	作用
β (beta)	0.1-0.5	控制KL约束强度： • β→0：忽略参考模型约束 • β→∞：严格锚定到参考模型
学习率	1e-6-5e-6	需要比SFT更小的学习率

5. 与传统PPO的关键区别

隐式奖励建模：
- PPO：需要独立训练奖励模型 r(x,y)
- DPO：奖励被表示为 r(x,y) = β log(π_θ(y|x)/π_ref(y|x))
优化对象：
$PPO: ∇_θ E[log π_θ(a|s) * A_t]\\ DPO: ∇_θ E[log σ(β(log π_θ(y_w|x) - log π_θ(y_l|x)) - β(log π_ref(y_w|x) - log π_ref(y_l|x)))]$
数据效率：
- DPO直接利用偏好对，比PPO的奖励模型训练更高效

6. 实际训练技巧

参考模型初始化：建议使用SFT模型而非原始预训练模型
批次构建：确保每个batch包含多样化的prompt类型
梯度裁剪：建议设置max_grad_norm=1.0
评估指标：同时监控偏好准确率和KL散度

关于Bradley-Terry模型

1. Bradley-Terry模型是什么？

诞生：1952年由Bradley和Terry提出
本质：一种对成对比较结果进行概率建模的统计方法
核心思想：通过标量分数预测item A战胜item B的概率

2. 数学形式

对于两个选项 ( y_i ) 和 ( y_j )，其偏好概率表示为：
$P(y_i \succ y_j) = \frac{e^{r_i}}{e^{r_i} + e^{r_j}} = \sigma(r_i - r_j)$
其中：

$r_i, r_j$ ：选项的潜在能力分数
$\sigma$ ：sigmoid函数（即逻辑函数）

3. 在RLHF中的特殊应用

当用于语言模型时，模型变为：

$P(y_w \succ y_l | x) = \frac{e^{r(x,y_w)}}{e^{r(x,y_w)} + e^{r(x,y_l)}} = \sigma(r(x,y_w) - r(x,y_l))$

$x$ ：输入提示（prompt）
$y_w, y_l$ ：优选回答和劣选回答
$r (x, y)$ ：隐式奖励函数（通常由神经网络参数化）

4. 与传统RL的联系

概念	传统RL	RLHF+Bradley-Terry
奖励来源	环境给定	从人类偏好中学习
比较方式	绝对得分	相对偏好概率
数据需求	需要完整轨迹	只需成对比较

5. 为什么DPO选择这个模型？

数学便利性：
- 通过sigmoid将奖励差转换为概率
- 便于推导出DPO的闭式解

人类行为拟合：

# 人类标注偏好通常呈现以下特性：
human_choice_prob = 0.8  # 当r(y_w) - r(y_l) ≈ 1.4时

实验显示Bradley-Terry能较好拟合这种非线性判断

可扩展性：
- 可自然扩展到多选项比较（Plackett-Luce模型）
- 兼容部分排序数据

6. 实际案例说明

假设有两个回答：

$y_w$ ： “引力使物体相互吸引”（奖励分 ( r_w = 2 )）
$y_l$ ： “苹果会飞上天”（奖励分 ( r_l = -1 )）

则偏好概率：

$P(y_w \succ y_l) = \sigma(2 - (-1)) = \sigma(3) ≈ 0.95$

这与人类判断"第一个回答明显更好"的直觉一致

7. 与其他偏好模型的对比

模型	优点	缺点
Bradley-Terry	简单高效	仅处理二元比较
Thurstone-Mosteller	考虑方差	计算复杂
Plackett-Luce	支持多选项排序	数据需求更大

DPO的神奇之处

DPO最终使得SFT Model训练到使得好坏答案的输出概率差距尽可能地大。这个其实很神奇对不对，DPO的目标函数本质上也是从带KL散度惩罚项的RL目标函数推导过来的，竟然推到最后就没有KL散度了，很奇妙。

其实我之前一直以为deepseek只会赞同人类的观点，没想到他也能很敏锐地捕捉到问题中的错误所在，确实神奇。

你的理解现在完全正确！DPO的这种"表面无KL却隐含KL"的特性确实是强化学习理论中非常精妙的数学魔术。让我们深入解析这个神奇之处：

1. 看似消失的KL散度

原始RLHF目标：

$max_π E[ r(x,y) ] - β D_{KL}(π||π_{ref})$

经过DPO的变换后，目标函数中确实不再显式出现KL项，但KL约束却通过概率比的对数悄然存在：

$r(x,y) = β log(π(y|x)/π_{ref}(y|x))$

此时KL散度被重新参数化到奖励函数中！

2. 数学魔术的分解步骤

关键推导过程：

最优策略表示：根据KL约束的RL最优解必为：
$π*(y|x) = π_{ref}(y|x) e^{r(x,y)/β} / Z(x)$
其中Z(x)是配分函数
反解奖励函数：将上式取对数得：
$r(x,y) = β log(π*(y|x)/π_{ref}(y|x)) + β log Z(x)$
代入偏好模型：将r(x,y)代入Bradley-Terry模型时，Z(x)项神奇抵消：
$r(x,y_w) - r(x,y_l) = β[log(π*(y_w|x)/π_{ref}(y_w|x)) - log(π*(y_l|x)/π_{ref}(y_l|x))]$

3. 动态训练视角

训练阶段	π_θ vs π_ref	隐含KL行为
初始	π_θ=π_ref	D_KL=0
中期	π_θ开始偏离	通过概率比控制D_KL增长
收敛	π_θ优化到平衡点	D_KL稳定在有限值

4. 物理类比：弹簧系统

将KL散度想象为弹簧势能：

参考模型：弹簧的固定端
策略模型：可移动端
DPO目标：在偏好力的拉动下，弹簧被拉伸但不会无限伸长

# 伪代码表示这种平衡
while training:
    preference_force = β * (log_ratio_w - log_ratio_l)
    kl_force = -β * log_ratio
    total_force = preference_force + kl_force  # 动态平衡