【有啥问啥】什么是RLHF（基于人类反馈的强化学习）？

有啥问啥

已于 2024-09-04 10:19:28 修改

阅读量1.9k

点赞数 19

分类专栏：大模型文章标签：语言模型算法深度学习 ai

于 2024-07-11 11:36:01 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mieshizhishou/article/details/140347534

版权

RLHF

什么是RLHF（基于人类反馈的强化学习）？

基于人类反馈的强化学习（Reinforcement Learning from Human Feedback, RLHF）是一种结合强化学习和人类反馈的技术，用于训练智能体，使其行为更符合人类期望。这种方法在自然语言处理（NLP）领域，特别是对话生成任务中，取得了显著的效果。

本文将详细介绍RLHF的概念、公式，并通过示例和代码解释其实现过程。

RLHF的基本概念

强化学习基础

在强化学习（Reinforcement Learning, RL）中，智能体（agent）通过与环境（environment）交互来学习如何采取行动（action），以最大化累积的奖励（reward）。其基本框架包括：

状态（State, $s$ ）：智能体在某一时刻所处的环境状况。
动作（Action, $a$ ）：智能体在某一状态下可以采取的行为。
奖励（Reward, $r$ ）：智能体采取某一动作后，从环境中获得的反馈信号。
策略（Policy, $\pi$ ）：智能体从状态到动作的映射关系，决定了智能体在特定状态下采取的动作。

强化学习的目标是找到最优策略 $\pi^*$ ，使得累积奖励最大化。

传送门: 强化学习（Reinforcement Learning, RL）浅谈

人类反馈的引入

RLHF 在传统强化学习的框架中引入了人类反馈。具体来说，人类会对智能体的行为进行评价，这些评价可以用于指导智能体的学习过程。这种方法特别适用于那些无法直接定义奖励函数的任务，例如自然语言处理中的对话生成。

RLHF的公式

在 RLHF 中，目标是通过人类反馈来调整策略，以最大化人类评价的累积值。设人类反馈为 $ H(s, a) $，其代表了人类对智能体在状态 $ s $ 下采取动作 $ a $ 的评价。RLHF 的目标是找到使得人类评价累积值最大的策略 $\pi$ ：

$\pi^* = \arg\max_{\pi} \mathbb{E} \left[ \sum_{t=0}^{T} H(s_t, a_t) \mid \pi \right]$

最低0.47元/天解锁文章

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

有啥问啥 您的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。