RLHF(从人类反馈中进行强化学习)详解(一)

初步认知

RLHF,即Reinforcement Learning from Human Feedback(从人类反馈中进行强化学习),是一种结合了机器学习中的强化学习算法与人类主观判断的训练技术。这种方法旨在利用人类的直觉和判断力来指导人工智能系统学习更复杂、更贴近人类期望的行为模式,尤其是在自然语言处理(NLP)和决策制定等领域。

RLHF的基本流程

  1. 初步训练: 首先,使用传统的监督学习或者无监督学习方法对一个大型语言模型进行预训练,让模型学习基础的语言结构和广泛的知识。

  2. 探索阶段: 将预训练好的模型置于一个可以与环境互动的框架中,比如模拟对话场景。模型根据策略选择行动(如生成回复),但此时不直接优化于特定目标函数,而是为了探索各种可能的响应。

  3. 人类反馈收集: 模型产生的输出(如对话回复)被呈现给人类评估者,他们根据回复的质量、相关性、道德标准等因素给予正面或负面的反馈。这种反馈可以是直接评分、二元偏好(哪个更好)、或是详细的文本评论。

  4. 奖励信号构建: 人类的反馈被转换成一种形式化的奖励信号,这成为强化学习过程中的关键元素。例如,好评可以转化为正奖励,差评则为负奖励。

  5. 策略优化: 使用强化学习算法,如策略梯度方法(Policy Gradient Methods),模型根据接收到的人类反馈调整其策略参数,以增加未来获得更高奖励的概率。这个过程不断迭代,模型逐渐学会如何根据人类偏好来生成更合适的输出。

RLHF的优势与挑战

优势

1.提升模型质量:直接针对人类满意度优化,使模型输出更加自然、合适和人性化。
2.适应性:能够学习特定情境下的细微差别和文化偏好,提高模型在特定领域的适用性。
3.伦理和安全性:通过纳入人类价值观,有助于避免自动化系统产生有害或不合伦理的行为。


挑战

1.反馈成本高昂:高质量的人类反馈收集过程可能耗时且成本昂贵。
2.偏差与噪声:人类反馈可能包含个人偏见或不一致性,影响模型学习。
3.规模与泛化:如何有效规模化应用到大量数据和场景中,同时保证模型泛化能力,是一个挑战。

接下来我们以吴恩达教授的教学视频为引领,进行更进一步的学习。

How Does RLHF Work

此处以一个生动形象的例子引入:

当我们希望大模型完成以上任务,即通过输入一段文本,完成内容的总结,但是总结文本没有绝对正确的方法,比如不同的主题,不同的意图,会出现不同的结果。

如图所示,除了这两种之外,其实还有很多的可能结果。

所以,对于常规的监督学习微调,我们可以利用RLHF技术,实现得到更符合人类偏好的答案。

如图所示,RLHF实现有一些关键的步骤。首先,我们需要准备偏好数据集来训练一个奖励模型,然后通过监督学习的方式,在强化学习的循环中生成我们的基础大模型。

在创建偏好数据集的过程中,我们采用人类标注员进行人工标注,当然这个偏好不代表所有人类。

所以我们需要制订对齐标准,让标注更正确。

 在训练奖励模型的过程中,我们会输入提示和结果,返回一个标量值,代表完成的好坏。所以本质上奖励模型是一个回归模型,损失函数是错误分数的组合。

 

在图中的场景中,代理在与环境的交互中,通过状态和奖励的更新,再优化下一步的行动,最终的目标是达到最大的奖励。

总之,大致的思路如上图所示。偏好数据集→基础大模型→奖励模型→基础大模型→奖励模型→...

最后的目标是让基础大模型更符合人类的偏好。

在训练的过程中,我们会采用一些高效的微调方法,只调整其中的较小子集,减少计算量。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值