RLHF（从人类反馈中进行强化学习）详解（一）

最新推荐文章于 2025-03-29 09:59:53 发布

TheJustice_

最新推荐文章于 2025-03-29 09:59:53 发布

阅读量4.9k

点赞数 112

分类专栏： RLHF详解大模型解析文章标签：人工智能 nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/TheJustice_/article/details/139335183

版权

大模型解析同时被 2 个专栏收录

13 篇文章

订阅专栏

4 篇文章

订阅专栏

初步认知

RLHF，即Reinforcement Learning from Human Feedback（从人类反馈中进行强化学习），是一种结合了机器学习中的强化学习算法与人类主观判断的训练技术。这种方法旨在利用人类的直觉和判断力来指导人工智能系统学习更复杂、更贴近人类期望的行为模式，尤其是在自然语言处理（NLP）和决策制定等领域。

RLHF的基本流程

初步训练: 首先，使用传统的监督学习或者无监督学习方法对一个大型语言模型进行预训练，让模型学习基础的语言结构和广泛的知识。
探索阶段: 将预训练好的模型置于一个可以与环境互动的框架中，比如模拟对话场景。模型根据策略选择行动（如生成回复），但此时不直接优化于特定目标函数，而是为了探索各种可能的响应。
人类反馈收集: 模型产生的输出（如对话回复）被呈现给人类评估者，他们根据回复的质量、相关性、道德标准等因素给予正面或负面的反馈。这种反馈可以是直接评分、二元偏好（哪个更好）、或是详细的文本评论。
奖励信号构建: 人类的反馈被转换成一种形式化的奖励信号，这成为强化学习过程中的关键元素。例如，好评可以转化为正奖励，差评则为负奖励。
策略优化: 使用强化学习算法，如策略梯度方法（Policy Gradient Methods），模型根据接收到的人类反馈调整其策略参数，以增加未来获得更高奖励的概率。这个过程不断迭代，模型逐渐学会如何根据人类偏好来生成更合适的输出。

RLHF的优势与挑战

优势：

1.提升模型质量：直接针对人类满意度优化，使模型输出更加自然、合适和人性化。
2.适应性：能够学习特定情境下的细微差别和文化偏好，提高模型在特定领域的适用性。
3.伦理和安全性：通过纳入人类价值观，有助于避免自动化系统产生有害或不合伦理的行为。

挑战：

1.反馈成本高昂：高质量的人类反馈收集过程可能耗时且成本昂贵。
2.偏差与噪声：人类反馈可能包含个人偏见或不一致性，影响模型学习。
3.规模与泛化：如何有效规模化应用到大量数据和场景中，同时保证模型泛化能力，是一个挑战。

接下来我们以吴恩达教授的教学视频为引领，进行更进一步的学习。

How Does RLHF Work

此处以一个生动形象的例子引入：

当我们希望大模型完成以上任务，即通过输入一段文本，完成内容的总结，但是总结文本没有绝对正确的方法，比如不同的主题，不同的意图，会出现不同的结果。

如图所示，除了这两种之外，其实还有很多的可能结果。

所以，对于常规的监督学习微调，我们可以利用RLHF技术，实现得到更符合人类偏好的答案。

如图所示，RLHF实现有一些关键的步骤。首先，我们需要准备偏好数据集来训练一个奖励模型，然后通过监督学习的方式，在强化学习的循环中生成我们的基础大模型。

在创建偏好数据集的过程中，我们采用人类标注员进行人工标注，当然这个偏好不代表所有人类。

所以我们需要制订对齐标准，让标注更正确。

在训练奖励模型的过程中，我们会输入提示和结果，返回一个标量值，代表完成的好坏。所以本质上奖励模型是一个回归模型，损失函数是错误分数的组合。

在图中的场景中，代理在与环境的交互中，通过状态和奖励的更新，再优化下一步的行动，最终的目标是达到最大的奖励。

总之，大致的思路如上图所示。偏好数据集→基础大模型→奖励模型→基础大模型→奖励模型→...

最后的目标是让基础大模型更符合人类的偏好。

在训练的过程中，我们会采用一些高效的微调方法，只调整其中的较小子集，减少计算量。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。