【LLM】RLHF机制（Reinforcement Learning from Human Feedback）

山顶夕景

已于 2023-07-18 05:26:38 修改

阅读量1.8k

点赞数 2

分类专栏：自然语言处理 # 强化学习 # LLM大模型文章标签： RLHF 大模型人类反馈机制强化学习

于 2023-07-11 10:57:33 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35812205/article/details/131607037

版权

LLM大模型同时被 3 个专栏收录

122 篇文章

订阅专栏

自然语言处理

94 篇文章

订阅专栏

22 篇文章

订阅专栏

文章介绍了RLHF（基于人类反馈的强化学习）机制，包括有监督学习、奖励模型训练和PPO策略优化三个步骤。RLHF通过GPT3生成候选答案并由人类评分来训练奖励模型，然后使用PPO算法更新策略，控制策略更新幅度。PPO算法通过限制策略的KL散度来保证策略的稳定改进。此外，文章还提及了InstructGPT和ChatGPT的训练方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

一、RLHF机制
二、PPO模型（近端策略优化）
Reference

一、RLHF机制

在这里插入图片描述

分为三个步骤
- 我做你看：有监督学习，从训练集中挑出一批prompt，人工对prompt写答案
- 你做我看：奖励模型训练，这次不人工写答案了，而是让GPT3给出几个候选答案，人工对其质量排序，Reward model学习一个打分器；这个让机器学习人类偏好的过程就是【对齐】，但可能会导致胡说八道，可以通过KL Divergence等方法解决。instructGPT中奖励模型的损失函数如下，其中 rθ(x,y) 是奖励模型对提示x和完成y的标量输出，具有参数θ， $y_w$ 是 $y_w$ 和 $y_l$ 中更受欢迎的补全，D是人类比较的数据集。 $\operatorname{loss}(\theta)=-\frac{1}{\left(\begin{array}{c} K \\ 2 \end{array}\right)} E_{\left(x, y_w, y_l\right) \sim D}\left[\log \left(\sigma\left(r_\theta\left(x, y_w\right)-r_\theta\left(x, y_l\right)\right)\right)\right]$
- 自学成才：PPO训练，利用第二阶段的打分器，RL对大量训练数据训练，PPO最大优化该目标函数： $\begin{aligned} \text { objective }(\phi)= & E_{(x, y) \sim D_{\pi_\phi^{\mathrm{RL}}}}\left[r_\theta(x, y)-\beta \log \left(\pi_\phi^{\mathrm{RL}}(y \mid x) / \pi^{\mathrm{SFT}}(y \mid x)\right)\right]+ \\ & \gamma E_{x \sim D_{\text {pretrain }}}\left[\log \left(\pi_\phi^{\mathrm{RL}}(x)\right)\right] \end{aligned}$
  - $π^{RL}_φ$ 是学习到的RL策略，
  - $π^{SFT}$ 是监督训练模型，
  - $D_pretrain$ 是预训练分布。
  - KL奖励系数β和预训练损失系数γ分别控制KL惩罚和预训练梯度的强度。对于“PPO”模型，γ 设为 0。除非另有说明，否则本文中InstructGPT指 PPO-ptx模型

在这里插入图片描述

二、PPO模型（近端策略优化）

思想：保证策略改进同时，通过一些约束来控制策略更新的幅度；在每次迭代中，通过采样多个轨迹数据来更新策略：
- 使用当前策略对环境交互，收集多个轨迹数据
- 利用第一步的轨迹数据计算当前策略和旧策略之间的KL散度，通过控制KL散度大小来限制策略更新的幅度
- 使用优化器对策略进行更新，使其更加接近当前的样本策略
KL散度（Kullback-Leibler Divergence），可以衡量两个概率分布之间的差异程度。在 PPO 算法中，KL 散度（Kullback-Leibler Divergence）的计算公式如下：
$KL(π_old || π_new) = ∑i π_old(i) log(π_old(i) / π_new(i))$
- 其中，π_old 表示旧的策略，π_new 表示当前的样本策略。KL 散度的含义是用 π_old 的分布对 π_new 的分布进行加权，然后计算两个分布之间的差异程度。
- 具体来说，KL 散度的计算方法是首先计算 π_old(i) / π_new(i) 的比值，然后对其取对数并乘以 π_old(i) 来进行加权。最后将所有加权后的结果相加，即可得到 KL 散度的值。

注意：KL 散度是一个非对称的度量，即 KL(π_old || π_new) 与 KL(π_new || π_old) 的值可能不相等。在 PPO 算法中，我们通常使用 KL(π_old || π_new) 来控制策略更新的幅度，因为 KL(π_old || π_new) 的值通常比 KL(π_new || π_old) 更容易控制，并且更能够反映出策略改变的方向。

Reference

[1] 强化学习极简入门：通俗理解MDP、DP MC TC和Q学习、策略梯度、PPO
[2] “StackLLaMA”: 用 RLHF 训练 LLaMA 的手把手教程.huggingface
[3] ChatGPT的RLHF：AI时代的“调速器”，让AI真正可用的关键
[4] 【他山之石】如何正确复现 Instruct GPT / RLHF?
[5] https://en.wikipedia.org/wiki/Reinforcement_learning_from_human_feedback
[6] RLHF中的PPO算法原理及其实现.王嘉宁
[7] Training language models to follow instructions with human feedback（2022）
[8] InstructGPT论文解读.李响
[9] ChatGPT训练三阶段与RLHF的威力.oneflow

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

山顶夕景 小哥哥给我买个零食可好

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。