深入解析 RLHF（Reinforcement Learning from Human Feedback）

Jul.01

已于 2025-02-24 11:50:13 修改

阅读量957

点赞数 23

文章标签：强化学习

于 2025-02-24 11:31:43 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45998729/article/details/145823947

版权

随着人工智能（AI）技术的快速发展，大规模语言模型（如 OpenAI 的 GPT、Anthropic 的 Claude 等）已经能够生成高质量的文本。然而，传统的有监督学习方法存在局限性，难以确保 AI 生成的内容符合人类偏好。因此，RLHF（Reinforcement Learning from Human Feedback，人类反馈强化学习）应运而生。

RLHF 是一种基于强化学习（Reinforcement Learning, RL）的优化方法，它结合人类反馈（Human Feedback）来训练奖励模型（Reward Model, RM），进而优化语言模型的生成策略。它被广泛用于自然语言处理（NLP）任务，尤其是在对话系统、代码生成、文本摘要等场景中，提高模型的输出质量，使其更符合人类期望。

1. RLHF 的理论基础

1.1 强化学习（Reinforcement Learning, RL）概述

RLHF 的核心思想来源于强化学习（Reinforcement Learning, RL），其基本框架如下：

智能体（Agent）：在 RLHF 中，智能体通常是一个语言模型，如 GPT-4。
环境（Environment）：智能体与环境交互，生成文本，并接收环境提供的奖励反馈。
状态（State, S）：表示当前模型的上下文，例如已经生成的文本。
动作（Action, A）：表示模型可以采取的操作，例如生成下一个单词或句子。
状态转移概率（Transition Probability, P(s′∣s,a)）：表示执行动作 aaa 之后，环境转移到新状态 s′s's′ 的概率。
奖励（Reward, R(s,a)）：用于衡量某个动作的质量。RLHF 通过训练奖励模型（Reward Model, RM）来估计这个奖励。
策略（Policy, π(a∣s)）：表示智能体在特定状态下选择某个动作的概率分布。

整个强化学习的目标是找到最优策略 π*，使得模型在与环境交互的过程中，最大化累积奖励。

1.2 马尔可夫决策过程（MDP）

强化学习通常建模为一个马尔可夫决策过程（Markov Decision Process, MDP），其定义如下：

M=(S,A,P,R,γ)

其中：

S 是状态空间。
A是动作空间。
P(s′∣s,a) 是状态转移概率分布。
R(s,a) 是奖励函数，表示在状态 s 采取动作 a 时的即时奖励。
γ∈[0,1] 是折扣因子（Discount Factor），用于衡量未来奖励的重要性。

智能体的目标是找到一个最优策略 π*，使得长期累积奖励最大化：

在 RLHF 过程中，模型的策略会不断更新，以生成更符合人类偏好的文本。

2. RLHF 的数学推导

2.1 监督微调（Supervised Fine-Tuning, SFT）

在 RLHF 的第一阶段，我们使用有监督学习（Supervised Learning）对语言模型进行微调。设：

语言模型的参数为 θ。
训练数据集 D={(xi,yi)}，其中 xi 是输入文本，yi 是目标输出。

训练目标是最小化交叉熵损失（Cross-Entropy Loss）：

优化方式采用梯度下降：

其中 η是学习率。

2.2 奖励模型训练（Reward Model, RM）

(1) 人类反馈数据收集

在 RLHF 中，训练数据通常来自人类标注者的偏好排序。具体流程如下：

AI 生成多个候选回答 y1,y2,yn。
人类标注者对这些回答进行排序： yπ(1)≻yπ(2)≻⋯≻yπ(n) 其中 yπ(1) 是最优答案，yπ(n) 是最差答案。

(2) 奖励模型的训练

设奖励模型为 Rϕ(y)，我们使用对比学习（Pairwise Comparison）的方法进行训练：

损失函数采用负对数似然（Negative Log-Likelihood, NLL）：

优化方式：

2.3 强化学习优化（Policy Optimization with RL）

在 RL 过程中，我们使用奖励模型 Rϕ(y)作为强化学习的奖励信号。

(1) 目标函数

强化学习的目标是找到最优策略 πθ 使得期望奖励最大：

(2) 策略优化（PPO 算法）

在 RLHF 中，常用近端策略优化（Proximal Policy Optimization, PPO）算法进行优化：

PPO 采用剪裁的目标函数（Clipped Surrogate Objective）：

其中：

A 是优势函数（Advantage Function）。
ϵ是超参数。

最终使用梯度上升优化：

3. 总结

RLHF 是一种结合强化学习（RL）和人类反馈（HF）的 AI 训练方法，能够有效提升 AI 生成文本的质量。其核心步骤包括：

监督微调（SFT）：训练初始模型。
奖励模型训练（RM）：基于人类反馈优化奖励函数。
强化学习（RL）：使用 PPO 等方法优化策略，提高模型表现。

博客等级

码龄5年

63
原创

1100
点赞

998
收藏

2072
粉丝

关注

私信

热门文章

最新评论

解决anaconda prompt找不到的情况
m0_70258264: 为什么显示Python：can't open file '.Lib\_nsis.py'：[error2]No such file or directory
FlashAttention 如何通过优化自注意力机制的计算过程，来减少对 GPU 全局内存（HBM）的访问，从而提高计算效率。
Jul.01: 是的，您的分析没错。如果内存足够大，不分块确实会更快
FlashAttention 如何通过优化自注意力机制的计算过程，来减少对 GPU 全局内存（HBM）的访问，从而提高计算效率。
南叔先生: 我再想了一下，一是分块和部分快的延迟是否一样，因为分块和不分块，搬运的数据量是一样的，所以总体的延迟应该差不多，但我感觉分块的总体延迟可能还会更大。二是存储量够不够后面简单的计算了一下：假如QK矩阵的维度是512*4096，那两个矩阵用fp16存储，512×4096x2=4,194,304 字节 = 4 MB，两个矩阵应该是8MB，然后，输出矩阵S的维度是4096*4096，即16MB，所以总共需要22MB。真的超了，所以我理解，如果内存够，那应该不分快，速度还会更快。所以，对于size比较小的模型，不分块应该会更快。
FlashAttention 如何通过优化自注意力机制的计算过程，来减少对 GPU 全局内存（HBM）的访问，从而提高计算效率。
南叔先生: 嗷，我是意思就是，既然存储内存够，那不分块，也可以将中间结果存在SRAM里呀。分块和不分块，总体的搬运时间，我理解应该是一样的。
FlashAttention 如何通过优化自注意力机制的计算过程，来减少对 GPU 全局内存（HBM）的访问，从而提高计算效率。
Jul.01: 首先512×1024x2=1,048,576 字节 = 1 MB,两个矩阵应该是2MB.其次数据存储量的角度来看，计算过程中QK结果需要的存储量确实不大，但是频繁地从HBM（高带宽内存）加载数据会产生较大的延迟和带宽压力。如果可以将中间结果存储在SRAM中，就能减少对HBM的访问。因为Flash Attention通过块式计算的方式，可以将 QK 的结果保存在SRAM中，直接在本地进行softmax归一化和后续的矩阵操作，避免将 QK 回写到HBM，从而减少内存带宽的压力并提升计算效率。关于存储量再举个例子：假如是2048x4096的维度fp16存储，单个矩阵需要16M，矩阵维度增加了4倍，但是存储量是指数级的增加。

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。