【LLM】RLHF机制(Reinforcement Learning from Human Feedback)

文章介绍了RLHF(基于人类反馈的强化学习)机制,包括有监督学习、奖励模型训练和PPO策略优化三个步骤。RLHF通过GPT3生成候选答案并由人类评分来训练奖励模型,然后使用PPO算法更新策略,控制策略更新幅度。PPO算法通过限制策略的KL散度来保证策略的稳定改进。此外,文章还提及了InstructGPT和ChatGPT的训练方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、RLHF机制

在这里插入图片描述

  • 分为三个步骤
    • 我做你看:有监督学习,从训练集中挑出一批prompt,人工对prompt写答案
    • 你做我看:奖励模型训练,这次不人工写答案了,而是让GPT3给出几个候选答案,人工对其质量排序,Reward model学习一个打分器;这个让机器学习人类偏好的过程就是【对齐】,但可能会导致胡说八道,可以通过KL Divergence等方法解决。instructGPT中奖励模型的损失函数如下,其中 rθ(x,y) 是奖励模型对提示x和完成y的标量输出,具有参数θ, y w y_w yw y w y_w yw y l y_l yl中更受欢迎的补全,D是人类比较的数据集。 loss ⁡ ( θ ) = − 1 ( K 2 ) E ( x , y w , y l ) ∼ D [ log ⁡ ( σ ( r θ ( x , y w ) − r θ ( x , y l ) ) ) ] \operatorname{loss}(\theta)=-\frac{1}{\left(\begin{array}{c} K \\ 2 \end{array}\right)} E_{\left(x, y_w, y_l\right) \sim D}\left[\log \left(\sigma\left(r_\theta\left(x, y_w\right)-r_\theta\left(x, y_l\right)\right)\right)\right] loss(θ)=(K2)1E(x,yw,yl)D[log(σ(rθ(x,yw)rθ(x,yl)))]
    • 自学成才:PPO训练,利用第二阶段的打分器,RL对大量训练数据训练,PPO最大优化该目标函数:  objective  ( ϕ ) = E ( x , y ) ∼ D π ϕ R L [ r θ ( x , y ) − β log ⁡ ( π ϕ R L ( y ∣ x ) / π S F T ( y ∣ x ) ) ] + γ E x ∼ D pretrain  [ log ⁡ ( π ϕ R L ( x ) ) ] \begin{aligned} \text { objective }(\phi)= & E_{(x, y) \sim D_{\pi_\phi^{\mathrm{RL}}}}\left[r_\theta(x, y)-\beta \log \left(\pi_\phi^{\mathrm{RL}}(y \mid x) / \pi^{\mathrm{SFT}}(y \mid x)\right)\right]+ \\ & \gamma E_{x \sim D_{\text {pretrain }}}\left[\log \left(\pi_\phi^{\mathrm{RL}}(x)\right)\right] \end{aligned}  objective (ϕ)=E(x,y)DπϕRL[rθ(x,y)βlog(πϕRL(yx)/πSFT(yx))]+γExDpretrain [log(πϕRL(x))]
      • π φ R L π^{RL}_φ πφRL是学习到的RL策略,
      • π S F T π^{SFT} πSFT是监督训练模型,
      • D p r e t r a i n D_pretrain Dpretrain 是预训练分布。
      • KL奖励系数β和预训练损失系数γ分别控制KL惩罚和预训练梯度的强度。对于“PPO”模型,γ 设为 0。除非另有说明,否则本文中InstructGPT指 PPO-ptx模型

在这里插入图片描述

二、PPO模型(近端策略优化)

  • 思想:保证策略改进同时,通过一些约束来控制策略更新的幅度;在每次迭代中,通过采样多个轨迹数据来更新策略:
    • 使用当前策略对环境交互,收集多个轨迹数据
    • 利用第一步的轨迹数据计算当前策略和旧策略之间的KL散度,通过控制KL散度大小来限制策略更新的幅度
    • 使用优化器对策略进行更新,使其更加接近当前的样本策略
  • KL散度(Kullback-Leibler Divergence),可以衡量两个概率分布之间的差异程度。在 PPO 算法中,KL 散度(Kullback-Leibler Divergence)的计算公式如下:
    K L ( π o l d ∣ ∣ π n e w ) = ∑ i π o l d ( i ) l o g ( π o l d ( i ) / π n e w ( i ) ) KL(π_old || π_new) = ∑i π_old(i) log(π_old(i) / π_new(i)) KL(πold∣∣πnew)=iπold(i)log(πold(i)/πnew(i))
    • 其中,π_old 表示旧的策略,π_new 表示当前的样本策略。KL 散度的含义是用 π_old 的分布对 π_new 的分布进行加权,然后计算两个分布之间的差异程度。
    • 具体来说,KL 散度的计算方法是首先计算 π_old(i) / π_new(i) 的比值,然后对其取对数并乘以 π_old(i) 来进行加权。最后将所有加权后的结果相加,即可得到 KL 散度的值。

注意:KL 散度是一个非对称的度量,即 KL(π_old || π_new) 与 KL(π_new || π_old) 的值可能不相等。在 PPO 算法中,我们通常使用 KL(π_old || π_new) 来控制策略更新的幅度,因为 KL(π_old || π_new) 的值通常比 KL(π_new || π_old) 更容易控制,并且更能够反映出策略改变的方向。

Reference

[1] 强化学习极简入门:通俗理解MDP、DP MC TC和Q学习、策略梯度、PPO
[2] “StackLLaMA”: 用 RLHF 训练 LLaMA 的手把手教程.huggingface
[3] ChatGPT的RLHF:AI时代的“调速器”,让AI真正可用的关键
[4] 【他山之石】如何正确复现 Instruct GPT / RLHF?
[5] https://en.wikipedia.org/wiki/Reinforcement_learning_from_human_feedback
[6] RLHF中的PPO算法原理及其实现.王嘉宁
[7] Training language models to follow instructions with human feedback(2022)
[8] InstructGPT论文解读.李响
[9] ChatGPT训练三阶段与RLHF的威力.oneflow

<think>好的,我现在需要回答用户关于强化学习(RL)与大语言模型(LLM)之间关系及应用的问题。首先,我应该回顾用户提供的引用内容,看看有没有相关的信息可以利用。 根据引用[2],R1-Searcher框架通过强化学习激励LLM的搜索能力,提到了知识蒸馏、反馈驱动进化、增量学习等技术。引用[3]提到RL在LLM后期训练中的应用广泛,但获取奖励信号存在挑战,并提到DeepSeek和清华的研究中使用逐点生成奖励模型(GRM)来处理不同评分情况。 用户的问题主要集中在两者的关系和应用上,我需要分点解释。首先,可能需要介绍RL和LLM的基本概念,然后说明它们如何结合。接下来,应用部分可以包括具体的技术方法,比如对齐优化、搜索能力提升、持续学习等。此外,需要提到挑战和未来方向,如奖励模型设计和训练稳定性。 要确保结构清晰,分点回答。可能需要分为几个部分:核心关系、应用场景、技术实现案例、挑战与未来方向。同时,要注意使用正确的LaTeX格式,行内公式用$...$,独立公式用$$...$$,并且检查语法是否正确。 还需要生成相关问题,根据用户提供的示例,可能需要提出关于RLHF、优化方法、挑战、具体应用案例等问题。要确保问题与主题相关,能够引导进一步学习。 最后,确认引用标识正确添加在相关段落末尾,如引用[^2]和[^3]的位置是否合适。需要确保回答真实可靠,参考用户提供的引用内容,并结合自己的知识进行补充。</think>### 强化学习(RL)与大语言模型(LLM)的关系及应用 #### 一、核心关系 1. **RL 作为 LLM 的优化工具** 强化学习通过设计奖励机制,帮助 LLM 生成更符合人类偏好的输出。例如,在训练后期阶段,RL 可通过对齐优化(如 RLHFReinforcement Learning from Human Feedback)调整模型的生成策略[^3]。 2. **LLM 为 RL 提供语义理解能力** LLM 能够将自然语言指令转化为 RL 可理解的决策逻辑,例如在机器人控制或游戏智能体中,LLM 解析任务目标后,RL 负责优化动作序列[^2]。 #### 二、应用场景 1. **对齐优化(Alignment)** 通过 RLHF 技术,将人类反馈(如对生成文本的质量评分)转化为奖励信号,优化 LLM 的生成结果。例如,ChatGPT 通过此方法减少有害内容的输出[^3]。 2. **搜索与检索增强** 在检索系统中,RL 可动态调整 LLM 的排序偏好。如 R1-Searcher 框架利用用户点击信号实时更新模型参数,提升搜索相关性[^2]。 3. **持续学习与适应** 结合增量学习技术,RL 帮助 LLM 在不中断服务的情况下吸收新数据。例如,每日增量更新模型参数以保持知识时效性。 #### 三、技术实现案例 1. **奖励模型设计** 传统 RL 需预定义奖励函数,而 LLM 的复杂性要求更灵活的奖励建模。例如,逐点生成奖励模型(GRM)可统一处理单样本、成对样本及多样本的评分问题: $$R_{\text{GRM}}(y|x) = \text{LLM}(x, y) \cdot W + b$$ 其中 $W$ 和 $b$ 为可学习参数,$x$ 为输入,$y$ 为输出。 2. **知识蒸馏与 RL 结合** 将 LLM 的语义理解能力迁移至轻量级模型时,RL 可优化蒸馏过程。例如,通过策略梯度(Policy Gradient)最大化学生模型与教师模型输出的一致性。 #### 四、挑战与未来方向 1. **奖励信号稀疏性** 在复杂任务(如开放式对话)中,设计高效的奖励函数仍具挑战。部分研究尝试用 LLM 自身生成奖励信号,但可能引入偏差[^3]。 2. **训练稳定性** RL 与 LLM 结合时,需平衡探索(生成多样性)与利用(输出质量)。现有方法如 PPO(Proximal Policy Optimization)通过约束策略更新幅度缓解此问题。 3. **多模态扩展** 当前 RL-LLM 研究集中于文本领域,未来可能拓展至图像、音频等多模态交互场景。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

山顶夕景

小哥哥给我买个零食可好

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值