DeepSpeed-Chat 中PPO奖励设计的解析以及为什么只在最后一个时间步加上奖励模型的分数？

阿正的梦工坊

已于 2024-12-12 19:50:40 修改

阅读量1.4k

点赞数 8

分类专栏： Deep Learning LLM 文章标签： ppo

于 2024-12-12 19:49:55 首次发布

本文链接：https://blog.csdn.net/shizheng_Li/article/details/144434452

版权

Deep Learning 同时被 2 个专栏收录

289 篇文章

订阅专栏

LLM

205 篇文章

订阅专栏

博客：DeepSpeed-Chat 中奖励设计的解析

背景介绍

在深度强化学习中的奖励设计是优化策略的核心，尤其是在基于偏好建模（Preference Model）的强化学习中。DeepSpeed-Chat 是一个开源的 RLHF（Reinforcement Learning with Human Feedback）框架，使用了 PPO 算法。其奖励函数的设计直接影响模型的学习目标与最终生成效果。

本文结合 DeepSpeed-Chat 提供的源码与理论公式，对其奖励设计进行深入解析，探讨实际代码与理论公式的对应关系。

奖励设计的理论基础

DeepSpeed-Chat 中的奖励函数 ( $R_t$ ) 定义如下：

$kl_ctl ⋅ ( log ⁡ P ( A t ∣ S t ) P ref ( A t ∣ S t ) ) , t ≠ T − kl_ctl ⋅ ( log ⁡ P ( A t ∣ S t ) P ref ( A t ∣ S t ) ) + R t , t = T R_t = \begin{cases} -\text{kl\_ctl} \cdot \left( \log \frac{P(A_t | S_t)}{P_{\text{ref}}(A_t | S_t)} \right), & t \neq T \\ -\text{kl\_ctl} \cdot \left( \log \frac{P(A_t | S_t)}{P_{\text{ref}}(A_t | S_t)} \right) + R_t, & t = T \end{cases}$

其中：

( $kl_ctl \text{kl\_ctl}$ )：KL 控制系数，通常用于平衡奖励的幅度。DeepSpeed-Chat 中默认为 0.1。
( $P(A_t | S_t)$ )：当前策略生成的动作分布。
( $P_{\text{ref}}(A_t | S_t)$ )：参考策略（一般是微调模型或初始模型）的动作分布。
( $T$ )：生成序列的终点，只有在最后一个时间步，奖励才加上额外的 ( $R_T$ )（通常是奖励模型的分数）。

解释公式含义

KL 惩罚项：
- 中间时间步 (( $\neq T$ )) 的奖励完全由 KL 散度控制，表示当前策略与参考策略的差异。
- 公式可以改写为：
  $kl_ctl ⋅ ( log_probs − ref_log_probs ) , R_t = -\text{kl\_ctl} \cdot (\text{log\_probs} - \text{ref\_log\_probs}),$
  其中：
  - ( $log_probs = log ⁡ P ( A t ∣ S t ) \text{log\_probs} = \log P(A_t | S_t)$ )
  - ( $ref_log_probs = log ⁡ P ref ( A t ∣ S t ) \text{ref\_log\_probs} = \log P_{\text{ref}}(A_t | S_t)$ )
终点奖励：
- 在终点 (( $t = T$ ))，在 KL 惩罚的基础上增加奖励模型的得分 ( $R_T$ )。
- 奖励模型得分通过裁剪函数限制在一定范围：
  $clip_reward_value , clip_reward_value ) , R_T = \text{clip}(r, -\text{clip\_reward\_value}, \text{clip\_reward\_value}),$
  这里 ( $r$ ) 是从奖励模型输出的分数。

源码解析

在 DeepSpeed-Chat 中，这一理论设计被具体实现为以下代码：

源码链接：https://github.com/microsoft/DeepSpeedExamples/blob/master/applications/DeepSpeed-Chat/dschat/rlhf/ppo_trainer.py#L44

def compute_rewards(self, prompts, log_probs, ref_log_probs, reward_score,
                        action_mask):

        kl_divergence_estimate = -self.kl_ctl * (log_probs - ref_log_probs)
        rewards = kl_divergence_estimate
        start = prompts.shape[1] - 1
        ends = start + action_mask[:, start:].sum(1) + 1
        reward_clip = torch.clamp(reward_score, -self.clip_reward_value,
                                  self.clip_reward_value)
        batch_size = log_probs.shape[0]
        for j in range(batch_size):
            rewards[j, start:ends[j]][-1] += reward_clip[j]

        return rewards

关于函数具体执行过程可以参考笔者另一篇博客: 详细解释DeepSpeed-Chat中ppo训练的代码：compute_rewards函数解析

1. KL 惩罚计算

kl_divergence_estimate = -self.kl_ctl * (log_probs - ref_log_probs)
rewards = kl_divergence_estimate

这部分代码对应理论中的 KL 惩罚项：

$kl_ctl ⋅ ( log_probs − ref_log_probs ) R_t = -\text{kl\_ctl} \cdot (\text{log\_probs} - \text{ref\_log\_probs})$

log_probs：当前策略生成的 log 概率。
ref_log_probs：参考策略生成的 log 概率。
self.kl_ctl：控制 KL 项的权重。

2. 扩展奖励序列

为了支持变长生成，每个样本的奖励需要扩展到生成的实际长度：

start = prompts.shape[1] - 1
ends = start + action_mask[:, start:].sum(1) + 1

start：表示生成部分的起点（通常为 prompt 长度）。
ends：每条序列的生成终点，计算方式为 start 加上生成的 token 数。

3. 奖励模型分数的裁剪

reward_clip = torch.clamp(reward_score, -self.clip_reward_value, self.clip_reward_value)

reward_score：奖励模型的输出分数。
self.clip_reward_value：裁剪范围，限制奖励幅度，避免过大的梯度波动。

4. 终点奖励更新

for j in range(batch_size):
    rewards[j, start:ends[j]][-1] += reward_clip[j]

这段代码在每条序列的最后一个时间步（rewards[j, start:ends[j]][-1]）添加奖励模型分数。

设计的意义

KL 惩罚控制训练稳定性：
- KL 项的引入防止策略偏离参考策略太远，避免模型生成过多不合理的内容。
- ( $kl_ctl \text{kl\_ctl}$ ) 的值调节了惩罚的力度，常设为 0.1。
终点奖励增强奖励信号：
- 奖励模型的分数只在终点加入，避免生成中间部分奖励过多、导致不必要的策略偏移。
- 裁剪函数进一步稳定了训练过程。
支持变长序列：
- start 和 ends 的计算允许批次内的序列长度动态变化，提高模型的生成适应性。

总结

DeepSpeed-Chat 中的奖励设计核心是结合 KL 惩罚和奖励模型分数，并通过裁剪与动态长度扩展确保稳定性与灵活性。这种设计在实际中平衡了模型生成的多样性和与参考策略的接近程度，是 RLHF 实现中的一种经典方案。

为什么只在最后一个时间步加上奖励模型的分数 ( $R_T$ )?

在 RLHF（Reinforcement Learning with Human Feedback）的实现中，这种设计主要是基于以下原因：

1. 奖励模型分数的语义性

奖励模型分数通常表示整个生成序列的质量，而不是某个具体时间步的表现。例如：

奖励模型的训练目标通常是对整个生成的句子或段落进行打分，而不是评估生成过程中每一步的质量。
在这种情况下，将奖励模型分数直接赋值给整个序列显然不合理。因此，它被设计为只加到终点时间步 ( $t = T$ ) 的奖励中，以反映最终生成结果的整体质量。

这种设计确保了奖励模型的分数主要作用于整个生成序列，而不会误导中间时间步的策略。

2. 稳定性和训练效率

在 RLHF 中，奖励信号是通过策略网络和参考模型（Ref Model）的 KL 惩罚控制生成的。如果每个时间步都引入额外奖励分数，可能会导致以下问题：

梯度不稳定：如果奖励模型的分数过大或波动较大，分散到所有时间步可能导致梯度爆炸或策略训练方向不稳定。
训练效率低：将奖励分数扩展到每个时间步可能让策略网络对局部优化更敏感，难以收敛到对全局质量更优的策略。

因此，将奖励分数局限于最后一个时间步，可以减少梯度噪声，提高训练的稳定性和效率。

还能进行怎样的优化？

虽然当前设计有其合理性，但仍存在改进的空间：

1. 平滑奖励分布

方法：将奖励模型的分数 ( $R_T$ ) 按权重分散到多个时间步，而不是只加到终点。例如：
$R_t = w_t \cdot \text{clip}(r, -c, c)$
其中，( $w_t$ ) 是一个递增的权重函数，例如 ( $w_t = \frac{t}{T}$ )。
优点：
- 更平滑的奖励信号，策略网络能够感知中间时间步对最终生成的贡献。
- 提高对中间时间步生成质量的关注。

2. 引入细粒度奖励信号

方法：在训练奖励模型时，设计更细粒度的评分机制，对序列中的每个子片段或时间步进行单独打分。这需要将奖励模型扩展为生成过程的局部评价器。
优点：
- 提升奖励的时间步相关性。
- 有助于避免生成过程中局部错误对全局奖励的影响。

3. 动态权重分配

方法：使用策略网络的注意力机制或其他特征，将奖励模型的分数动态分配到不同时间步。例如：
$R_t = \alpha_t \cdot R_T$
其中 ( $\alpha_t$ ) 由策略网络生成，表示时间步 ( $t$ ) 的重要性权重。
优点：
- 更灵活地调整不同时间步的奖励。
- 利用上下文信息提高奖励分布的合理性。