RLHF中的on-policy和off-policy的区别

最新推荐文章于 2025-02-15 21:03:55 发布

FesianXu

最新推荐文章于 2025-02-15 21:03:55 发布

阅读量749

点赞数 8

分类专栏： Large Language Model LLM偏好对齐强化学习文章标签： RLHF LLM 偏好对齐

本文链接：https://blog.csdn.net/LoseInVain/article/details/145500763

版权

13 篇文章

订阅专栏

3 篇文章

订阅专栏

1 篇文章

订阅专栏

在LLM（大语言模型）和RLHF（基于人类反馈的强化学习）中，on-policy和off-policy的主要区别在于数据的来源和策略更新的方式。以下是两者的详细对比以及各自的典型算法：

特点：
- 数据和策略绑定：只能从当前策略生成的数据中学习。
- 学习目标：学习当前策略的动作价值函数。
- 优点：学习过程稳定，因为学习目标与采样数据来自同一个策略。
- 缺点：探索效率较低，数据利用率差，因为只能使用“当前策略”的数据。
例子：以PPO（近端策略优化）为例，假设有一个LLM在训练过程中实时生成文本，根据这些生成结果的好坏来学习改进。这就好比你在学习玩王者荣耀时，亲自上阵，旁边有一位教练实时指导你的操作。

REINFORCE：
- 简单的策略梯度算法，直接通过采样来估计策略的梯度。
- 缺点是方差较大，训练过程不稳定。
Actor-Critic：
- 结合了策略梯度（Actor）和值函数估计（Critic）。
- Critic用于估计状态值或动作值，帮助Actor更高效地更新策略。
PPO（Proximal Policy Optimization）：
- 是一种改进的策略梯度算法，通过限制策略更新的幅度来提高稳定性。
- 广泛用于RLHF中，例如OpenAI在训练ChatGPT时使用PPO。

特点：
- 数据和策略解耦：可以使用来自其他策略（甚至随机策略）的数据来更新目标策略。
- 学习目标：学习目标策略（通常是最优策略）的动作价值函数。
- 优点：数据利用率高，可以复用来自过去或其他策略的数据。
- 缺点：学习过程可能不稳定，因为行为策略与目标策略不同。
例子：以DPO（分布式策略优化）为例，不需要LLM在训练过程中实时生成文本，而是利用已有的数据进行学习。这就好比你在学习王者荣耀时，通过观看职业选手的比赛录像来学习技巧和策略。

Q-Learning：
- 一种经典的值函数学习算法，通过学习动作值函数来寻找最优策略。
- 不依赖于当前策略，可以直接从历史数据中学习。
DQN（Deep Q-Networks）：
- 使用深度神经网络来近似Q函数，解决了Q-Learning在复杂环境中的应用问题。
- 通过经验回放缓存和目标网络来提高稳定性和样本效率。
DDPG（Deep Deterministic Policy Gradient）：
- 适用于连续动作空间的off-policy算法，结合了DQN和策略梯度方法。
SAC（Soft Actor-Critic）：
- 一种基于最大熵的强化学习算法，目标是最大化奖励的同时最大化策略的熵。
- 提高了策略的探索能力和稳定性。
DPO（Direct Preference Optimization）：
- 是一种专门为LLM设计的off-policy算法，通过直接优化偏好来训练模型。
- 在RLHF中表现出色，尤其是在异步训练中。