【RLHF个人笔记】RLHF:Reinforcement Learning from Human Feedback具体过程

最新推荐文章于 2025-02-07 07:45:00 发布

几度热忱

最新推荐文章于 2025-02-07 07:45:00 发布

阅读量1.8k

点赞数 27

分类专栏： # 强化学习文章标签：笔记语言模型深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Ever_____/article/details/139271806

版权

强化学习专栏收录该内容

21 篇文章

订阅专栏

【RLHF个人笔记】RLHF:Reinforcement Learning from Human Feedback具体过程

RLHF训练的三个步骤
参考内容

RLHF训练的三个步骤

在这里插入图片描述

步骤1：收集数据与有监督训练策略

从数据集中采样的prompt提问
数据标注者（人工）给出最合理的回答，组成问答机制对 $< Q, A >$
利用问答机制通过SFT有监督精调GPT3.5，得到策略policy

步骤2：收集数据训练奖励模型

继续采样prompt，将prompt输入一个或多个 LLM 生成对比数据。他们产生了几对提示-答案 $< Q, A >$
人类标注者根据模型回答的质量，对回答的好坏进行排序（收集人类反馈）
得到排序的数据集后，训练奖励模型，奖励模型能够根据输入给出一个标量奖励值，代表人类对这些输出或行为的偏好
经过充分的训练，奖励模型可以在没有人为干预的情况下对智能体的输出或行为进行打分，以量化其符合人类偏好的程度

图中的ELO是指建立其人类对于输出的相对排名

步骤3：结合奖励模型利用强化学习算法如PPO算法来优化策略

再次采样prompt，利用PPO模型（由前面第一步得到的策略初始化）产生结果得到 $< Q, A >$
将 $< Q, A >$ 输入奖励模型，产生打分（奖励）
利用奖励信号评估策略的输出，通过强化学习算法来优化策略（比如 PPO模型）
创建一个循环来优化微调策略：通过新采样的数据，在强化学习过程中，策略会生成新的输出或行为，并根据奖励模型的反馈进行迭代优化。这个过程会不断重复，直到模型的性能达到满意的水平

policy是给GPT输入文本后输出结果的过程，即GPT推理的过程

整体流程图：
在这里插入图片描述

参考内容

1. HuggingFace官方博客：Illustrating Reinforcement Learning from Human Feedback (RLHF)
2. B站里看的一个视频：RLHF大模型加强学习机制原理介绍

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

几度热忱 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。