基于人类反馈的强化学习(RLHF)入门指南

理解 RLHF 及其运作过程

来自人类反馈的强化学习 (RLHF) 是一种训练和微调大型语言模型的方法,使其能够正确遵循人类指令。借助 RLHF,LLM 模型可以理解用户的意图,即使该意图没有被明确描述。RLHF 使模型能够正确解释指令并从以前的对话中学习。

为什么 RLHF 对 LLM 很重要

要更好地理解 RLHF,了解大型语言模型的基本特征至关重要。大型语言模型旨在预测句子的下一个单词。例如,您向 GPT 模型提供短语“狐狸从树上跳下来……”(The fox jumped off the tree...),它会用“然后稳稳地落在地上”(and landed on its feet)来完成句子。

但是,如果 LLM 能够理解简单的指令,例如“写一个关于狐狸和树的短篇故事”(Create a short story about a fox and a tree),则会更有帮助。作为初始语言模型,它难以解释此类指令的目的。因此,该模型可能会提供模棱两可的响应,例如描述编写创意故事的方法,而不是直接讲故事本身。

RLHF 使 LLM 能够扩展其能力,使其不仅仅能自动补全语句。它涉及创建一个奖励系统,通过人类反馈进行增强,以指导基础模型哪种响应更符合人类偏好。简而言之,RLHF 让 LLM 具备像人类一样的判断能力

RLHF 与传统强化学习

在传统的强化学习中,预训练的语言模型与特定环境进行交互,通过奖励系统优化其策略。这里,模型充当强化学习 (RL) 智能体,尝试通过反复试验来最大化其奖励。

来自人类反馈的强化学习通过将人类反馈纳入奖励模型来增强传统的强化学习方法。借助 RLHF,RL 智能体通过应用领域专家的额外反馈来加速其整体训练过程。它将 AI 生成的反馈与来自人类的指导和演示相结合。因此,RL 智能体可以在不同的现实环境中始终如一地输出相关结果。

RLHF 的工作原理

图片

RLHF 是一项先进的机器学习技术,可以增强大型模型自监督学习过程。由于需要人类训练者的高成本参与,它不能作为独立的模型学习方法。相反,大型人工智能公司使用 RLHF 来微调预训练模型。

步骤 1 - 从预训练模型开始

首先,选择一个预训练模型。例如,ChatGPT 是从现有的 GPT 模型开发而来的。这些模型经过了自监督学习,可以预测和构建句子。

步骤 2 - 监督式微调

然后,对预训练模型进行微调以进一步增强其能力。在这个阶段,人工标注者准备了一组提示和期望结果,以训练模型识别特定的模式并调整其预测响应。例如,标注者通过以下训练数据将模型引导至期望的输出:

提示:写一个关于人工智能的简单解释。回答:人工智能是一门科学,它......

步骤 3 - 创建奖励模型

奖励模型是一种大型语言模型,用于向正在训练的原始语言模型发送

  • 22
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值