RLHF(基于人类反馈的强化学习)流程拆解与核心

RLHF学习笔记

一、RLHF核心流程

在这里插入图片描述

1. 预训练阶段

  • 目标:通过大规模数据学习语言基础能力
  • 输入:海量文本语料(书籍、网页等)
  • 输出:具备基础语法/语义/知识的语言模型
  • 局限性
    • 可能出现答非所问
    • 回答不够自然或礼貌
    • 存在输出危险或不适当内容的风险

2. 奖励模型训练阶段

  • 流程
    1. 预训练模型对同一问题生成多个候选答案
    2. 人类标注者对回答进行质量评分或排序
    3. 使用标注数据训练奖励模型(排序模型)
  • 关键技术
    • 成对比较标注(如回答A优于回答B)
    • 监督学习方法(如逻辑回归、神经网络)

3. 强化学习阶段

  • 优化目标:最大化奖励模型评分
  • 核心算法:PPO(近端策略优化)
  • 训练循环
    1. 当前策略模型生成候选回答
    2. 奖励模型计算回答分数
    3. 根据分数调整模型参数,重复迭代
预训练模型
奖励模型训练
强化学习优化
最终策略模型
人类反馈数据
PPO算法
策略更新
用户输入
生成回答

二、RLHF在GPT中的应用

1. 发展历程

  • 2018年:GPT-1(1.17亿参数)
  • 2019年:GPT-2(15亿参数)
  • 2020年:GPT-3(1750亿参数)首次引入RLHF(InstructGPT)
  • 2022年:ChatGPT(GPT-3.5)
  • 2023年:GPT-4(多模态能力)

2. 应用步骤

用户 模型 PPO 奖励模型 人类标注 策略模型 提问"北京天气如何?" 生成候选回答(A/B/C) 发送回答请求 获取偏好数据 返回评分排序 提供奖励信号 更新参数 返回优化后的回答 用户 模型 PPO 奖励模型 人类标注 策略模型
  1. 数据收集

    • 标注者对模型生成的回答进行成对比较(如回答A比B更有用)

    • 数据形式示例:

      问题回答A回答B标注结果
      北京天气晴,10-15℃多云,8-12℃A > B
  2. 奖励模型训练

    • 使用标注数据训练排序模型,将人类偏好转化为数值评分
  3. 策略优化

    • 使用PPO算法微调GPT模型,最大化奖励信号
  4. 持续迭代

    • 收集新反馈数据,更新奖励模型和策略

三、RLHF核心——奖励模型

1. 核心作用

  • 将人类主观偏好转化为AI可优化的信号
  • 作为强化学习的"裁判",定义模型改进方向

2. 量化机制

  • 主观评价 → 客观分数
    1. 多个标注者对回答进行排序
    2. 构建排序数据集训练奖励模型
    3. 模型输出连续分数表示回答质量

3. 信号价值

  • 与传统RL对比

    维度传统RLRLHF
    奖励来源预设规则人类反馈
    优化目标明确任务目标复杂主观偏好
    灵活性低(依赖规则设计)高(适应人类价值观)

四、强化学习基础

1. 核心概念

  • 智能体:学习主体(如机器人、程序)
  • 环境:智能体所处的外部世界
  • 状态:环境在某一时刻的描述
  • 动作:智能体可执行的行为
  • 奖励:环境对动作的即时反馈
  • 策略:动作选择规则(确定性或随机性)
  • 价值函数:评估状态或动作的长期收益

以下是强化学习核心概念的列表及其对应的字母表示(按常见文献中的符号规范整理):


强化学习核心概念与符号对照表

概念字母表示说明
智能体 (Agent)-无标准单字母表示,常用全称或π表示策略
环境 (Environment)envE交互的外部系统
状态 (State)s环境在时刻t的描述,sS(状态空间)
动作 (Action)a智能体的行为选择,aA(s)(动作空间)
奖励 (Reward)rR(s,a)即时反馈信号,r_t = R(s_t, a_t)
折扣因子 (Discount)γ (gamma)未来奖励的衰减系数,0 ≤ γ ≤ 1
策略 (Policy)π (pi)动作选择规则:
- 确定性策略:a = π(s)
- 随机策略:π(a|s)
状态价值函数V(s)V^π(s)从状态s开始的长期期望收益(遵循策略π
动作价值函数Q(s,a)Q^π(s,a)在状态s执行动作a的长期期望收益
最优价值函数V^*(s), Q^*(s,a)在所有策略中的最大价值函数
状态转移概率P(s’|s,a)s执行a转移到*s’*的概率(有模型环境)
时间步 (Time step)t离散时间索引(如t = 0,1,2,…)

补充说明

  1. 字母规范

    • s, a, r 为最基础符号,广泛用于贝尔曼方程和算法伪代码。
    • πγ 为希腊字母,需与拉丁字母区分(如策略π vs. 状态转移概率P)。
  2. 上下标含义

    • Q^π(s,a) 表示策略π下的动作价值,Q^(s,a)* 表示最优动作价值。
      在这里插入图片描述
      在这里插入图片描述

    • P(s’|s,a) 中的竖线表示条件概率。

  3. 其他常见符号

    • η (eta):学习率(如梯度下降中的步长)。
    • λ (lambda):资格迹(TD(λ)算法中的衰减参数)。

2. 学习过程

  1. 智能体在当前状态选择动作
  2. 环境根据动作返回新状态和奖励
  3. 智能体根据奖励更新策略,优化未来决策

3. 算法对比

算法名称场景示例场景描述适合场景
Q-Learning学习打麻将新手打麻将时,桌上每个牌型(状态)都有对应的选择(动作) ,如“摸牌”、“出牌”、“碰”或“杠”。“碰”后胡牌(高奖励),下次更倾向于类似选择。“杠”后被放炮(低奖励),下次避免这种情况。状态和动作有限、可以列出所有可能性的情况
Deep Q-Network(DQN)学习玩《王者荣耀》玩《王者荣耀》时,状态可能是地图上的位置、敌人的动向、血量等,动作是“进攻”、“撤退”、“买装备”。因为状态和动作的组合太多,没法用表格记录,所以用神经网络来预测某个动作的好坏。状态和动作非常复杂,比如玩游戏或视觉控制问题
Policy Gradient(PG)学习射箭不断调整射箭的力度和角度(动作) ,以命中靶心。每射一箭,根据结果调整动作(策略) ,直到每次都能精准命中靶心。动作是连续值(如力度、角度)时,无法用表格表示
Proximal Policy Optimization(PPO)高级射箭训练已经掌握射箭基础,但想更精确地微调动 作。PPO限制每次动作调整的幅度,确保策略变化不过猛,保证学习稳定性。需要平衡探索与稳定性的复杂任务
A3C(Asynchronous Actor - Critic)团队扫雷分头去扫雷,每个人在不同区域探索(独立智能体),但把经验汇总到一个共享的学习模型中。这个模型告诉每个人最优的扫雷策略。多人分头行动,共享经验 。需要高效并行学习的任务,比如实时学习或多智能体合作
Soft Actor - Critic(SAC)爬悬崖在未知的悬崖上寻找最佳爬法,每次动作尝试新路径,同时保留旧的安全策略。SAC加入“熵”奖励,更多地探索新方法,避免过早陷入单一爬法。在复杂问题中试探性地探索 。状态复杂且奖励稀疏的任务

五、奖励模型与算法关系

1. 解耦架构

  • 人类反馈训练奖励模型
  • 奖励模型为PPO算法提供优化信号
  • PPO算法调整策略模型生成回答

2. 组合可能性

  • 奖励模型可与多种强化学习算法结合:
    • TRPO(高精度任务)
    • Policy Gradient(简单任务)
    • A2C(结合价值函数优化)

关键总结
RLHF通过三个阶段实现模型优化:

  1. 预训练获取基础能力
  2. 奖励模型量化人类偏好
  3. 强化学习根据偏好优化策略
    核心在于奖励模型将主观评价转化为可计算的信号,指导模型生成符合人类预期的回答。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值