大模型之RLHF

最新推荐文章于 2025-03-29 09:59:53 发布

谁怕平生太急

最新推荐文章于 2025-03-29 09:59:53 发布

阅读量1.3k

点赞数 17

分类专栏：大模型文章标签：大模型

本文链接：https://blog.csdn.net/jinselizhi/article/details/138963338

版权

大模型专栏收录该内容

28 篇文章

订阅专栏

RLHF：Reinforcement Learning from Human Feedback 人类反馈强化学习

大模型之所以像人一样表达，核心在于RLHF机制的实现。特别是xxx-chat的开源大模型，都是经过RLHF之后的。

RLHF的两个策略：PPO和DPO

PPO：Proximal Policy Optimization 近端策略优化

DPO：Direct Preference Optimization 直接策略优化

RLHF的实现过程：
1、给模型一个prompt
2、在t时刻，模型根据上文，产出一个token（对应强化学习的动作，记作At）
3、在t时刻，At对应的即时收益为Rt，总收益是Vt（Vt=即时收益+未来收益），也可以理解成“对人类喜好的衡量”，此时模型的状态有St变为St+1

那Rt、Vt怎么得到呢？模型什么时候更新？

RLHF的4个角色：
1、Actor Model：训练目标-语言模型。需要训练
2、Critic Model：用来预估总收益Vt。需要训练
3、Reward Model：计算即时收益Rt。提前训练好，RLHF阶段冻结
4、Reference Model：在RLHF阶段给语言模型增加“约束”、类似残差连接的作用。提前训练好，RLHF阶段冻结

提前训练好的 Reward Model 和 Reference Model 分别是SFT和RW阶段的产物，在本文中不做描述。

from 猛猿知乎

整个RLHF-PPO的过程，重点在于 Rt和Vt如何定义、并如何用来计算损失？

损失分成两个部分：

1、更新Actor model的actor loss：用于评估Actor是否产生了符合人类喜好的结果
2、更新Critic model的critic loss：用于评估Critic是否正确预测了人类的喜好

在思考loss怎么设计之前，先想想我们有什么。我们有一个SFT之后的Reference Model，这也是Actor Model的初始模型；还有一个RW之后的Reward Model，这也是Critic Model的初始模型。然后我们就要在一些高质量数据上，用左脚（Critic Model）踩右脚（Actor Model），再一步步更新左脚和右脚，得到一个上天了的左右脚。

是不是很有难度。下面慢慢来理解更新的发动机——损失函数。

先看 actor loss：

v1版本：最小化loss意味着最大化（基于St产生的At的概率 * 生成At时的预估总收益Vt）。v1版本是不是很合理。loss含义是对上文St而言，如果token At产生的预估收益越高，那就增大它出现的概率，否则降低它的概率。那么皮球丢给了 Vt，毕竟我们只有一个对整体打分的 Reward model，怎么就能直接用来生成 Vt了呢？