RLHF,Reinforcement Learning from Human Feedback

在过去的几年中,语言模型通过根据人类输入提示生成多样化且引人注目的文本显示出令人印象深刻的能力。然而,什么才是“好”文本本质上很难定义,因为它是主观的并且依赖于上下文。有许多应用程序,例如编写您需要创意的故事、应该真实的信息性文本片段,或者我们希望可执行的代码片段。

编写一个损失函数来捕获这些属性似乎很棘手,而且大多数语言模型仍然使用简单的下一个标记预测损失(例如交叉熵)进行训练。为了弥补损失本身的缺点,人们定义了旨在更好地捕捉人类偏好的指标,例如 BLEUROUGE。虽然比损失函数本身更适合衡量性能,但这些指标只是简单地将生成的文本与具有简单规则的引用进行比较,因此也有局限性。如果我们使用生成文本的人工反馈作为性能衡量标准,或者更进一步并使用该反馈作为损失来优化模型,那不是很好吗?这就是从人类反馈中强化学习(RLHF)的想法;使用强化学习的方法直接优化带有人类反馈的语言模型。 RLHF 使语言模型能够开始将在一般文本数据语料库上训练的模型与复杂人类价值观的模型对齐。

RLHF 最近的成功是在 ChatGPT 中的使用。鉴于 ChatGPT 令人印象深刻的能力,我们请它为我们解释 RLHF:

RLHF:让我们一步步来
从人类反馈中强化学习(也称为来自人类偏好的 RL)是一个具有挑战性的概念,因为它涉及多模型训练过程和不同的部署阶段。在这篇博文中,我们将把训练过程分解为三个核心步骤:

预训练语言模型(LM),
收集数据并训练奖励模型,以及
通过强化学习微调 LM
首先,我们将了解如何对语言模型进行预训练。

预训练语言模型
作为起点,RLHF 使用已经使用经典预训练目标进行预训练的语言模型(有关更多详细信息,请参阅此博客文章)。 OpenAI 在其第一个流行的 RLHF 模型 InstructGPT 中使用了较小版本的 GPT-3。 Anthropic 使用了 1000 万 520 亿个参数的 Transformer 模型为此任务进行了训练。 DeepMind 使用了他们的 2800 亿参数模型 Gopher。

这个初始模型也可以根据额外的文本或条件进行微调,但不一定需要。例如,OpenAI 对“更可取”的人工生成文本进行了微调,而 Anthropic 通过根据“有用、诚实和无害”的标准提取上下文线索的原始 LM,为 RLHF 生成了初始 LM。这些都是我所说的昂贵的增强数据的来源,但这不是理解 RLHF 所必需的技术。

一般来说,对于“哪种模型”最适合作为 RLHF 的起点,并没有明确的答案。这将是本博客的一个共同主题——RLHF 培训中选项的设计空间没有得到彻底探索。

接下来,使用语言模型,需要生成数据训练奖励模型,这就是将人类偏好集成到系统中的方式。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值