RLHF(Reinforcement Learning with Human Feedback) 是大语言模型(如 GPT-4、Claude、ChatGPT)训练中的一项核心技术,用于让模型的输出更符合人类偏好、更有帮助、更安全。
全称是 基于人类反馈的强化学习,是一种用人类评价来优化生成式模型行为的方法。
一、RLHF 是什么?一句话总结:
RLHF 是通过人类反馈信息,训练一个奖励模型,再用强化学习方法引导大模型的输出朝“人类更喜欢”的方向演化。
它是 GPT-3.5、GPT-4、ChatGPT、Claude 等对话模型能力进化的关键步骤。
二、RLHF 的训练流程(标准三阶段)
RLHF 的训练流程分为 三个阶段,以 OpenAI 的 GPT 模型为例:
阶段 1:监督微调(Supervised Fine-tuning,SFT)
- 使用人工标注的数据对预训练模型进行微调;
- 人类编写 prompt 和参考回答,教会模型基础对话能力;
- 输出:一个基础对齐模型(SFT 模型)。
阶段 2:奖励模型训练(Reward Model)
- 人类给出多个模型回答,对它们排序(如哪一个更好、更有帮助);
- 用这些排序数据训练一个奖励模型(Reward Model,RM);
- 奖励模型可以对任意回答打分,反映人类偏好。
例如:人类评价说 A 比 B 更好,训练 RM 使 ( R(A) > R(B) )。
阶段 3:强化学习微调(PPO)
- 用强化学习(如 PPO 算法)让模型在生成回答时最大化奖励模型的打分;
- 模型逐步优化输出,使其更符合人类喜好;
- 输出:对齐后的大语言模型。
三、RLHF 的关键技术点
技术要素 | 说明 |
---|---|
Reward Model(RM) | 通过人类排序数据训练出来的偏好打分器 |
PPO(Proximal Policy Optimization) | 一种稳定高效的强化学习算法,用于训练生成模型 |
KL-Penalty | 在优化过程中防止生成结果偏离原始模型太远 |
对齐(Alignment) | 模型行为更安全、有益、可靠,符合人类价值观 |
四、RLHF 的目标:提升模型“对齐能力”
预训练语言模型只学到了语法、逻辑、知识,但:
- 不一定“对人类友好”
- 不一定“有帮助”
- 不一定“可信、安全”
RLHF 通过人类反馈,将“人类价值观”和“语用需求”融入模型,让它不仅能“说得对”,还要“说得好”。
五、RLHF 在大模型中的作用
阶段 | 模型 | 是否使用 RLHF |
---|---|---|
GPT-3 | 无对齐,输出易失控 | ❌ |
GPT-3.5 | 使用 RLHF 构建 ChatGPT | ✅ |
GPT-4 | 更高质量的 RLHF 数据 | ✅ |
Claude 系列 | 强化人类协作价值观 | ✅ |
文心一言、ChatGLM等国产大模型 | 部分使用 RLHF 替代品(规则打分、偏好排序) | 部分 ✅ |
六、RLHF 与 SFT 的区别
对比项 | 监督微调(SFT) | RLHF |
---|---|---|
数据来源 | 人类提供标准答案 | 人类对多个模型回答排序 |
优化方式 | 直接拟合答案 | 间接最大化奖励值 |
优势 | 快速建立模型基本能力 | 强化模型生成行为的“好坏” |
结果 | 基础模型 | 更对齐、更自然的对话模型 |
七、RLHF 面临的挑战
- 人类打分数据稀缺:打标签成本高,耗时耗力;
- 奖励模型偏差:容易放大错误偏好;
- 强化学习不稳定:容易“灾难性遗忘”或生成奇怪样本;
- 价值观对齐困难:不同文化、不同用户偏好不同。
八、RLHF 的替代与补充方法
- DPO(Direct Preference Optimization):直接优化人类偏好排序,不用强化学习;
- RLAIF(RL with AI Feedback):用另一个语言模型模仿人类打分,降低人工成本;
- CoT + Prompt Tuning:直接用提示和链式推理引导模型行为;
- Reward Shaping:结合规则/知识引导模型方向。
九、总结回顾
RLHF 是让模型“更听话、更友好”的核心技术:
- 先用监督微调建立基础能力;
- 然后用人类打分训练奖励模型;
- 最后用强化学习让模型输出更符合人类期望;
- 帮助实现更高质量、更安全、更可信的大语言模型。