＜基于人类偏好的深度强化学习＞

最新推荐文章于 2024-07-25 11:44:32 发布

EasonZzzzzzz

最新推荐文章于 2024-07-25 11:44:32 发布

阅读量508

点赞数 5

分类专栏：文献笔记文章标签：算法深度学习

本文链接：https://blog.csdn.net/m0_72748751/article/details/135267428

版权

文献笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一、引言

限制强化学习应用的一个重要原因就是，许多任务所涉及的目标都很复杂或者不太明确，因此很难人为设计一个奖励函数来激励智能体进行学习。

有两个方法可以解决这个问题：
① 通过人类标注数据使用逆强化学习获得奖励函数模型，这样有了奖励函数之后，就可以使用一般的强化学习的方法去找出最优策略/动作。
② 人类直接对智能体的当前策略/动作提供反馈，也就是用人类来替代奖励函数。

OpenAI 的方法是从人类反馈中学习奖励函数，然后再优化奖励函数。总而言之，在没有一个明确的奖励函数的前提下，希望获得一个解决以下问题的策略模型。

确保可以解决问题
允许非专业人士训练智能体
解决大型复杂问题
用于训练的人工反馈量尽可能少

在这里插入图片描述

首先，智能体的一对1-2秒的行为片段定期地回馈给人类操作员，人类基于偏好对智能体的行为作出某种偏好性的选择评判
接着，人类这种基于偏好的选择评判被预测器(reward predictor)来预测奖励函数
智能体通过预测器预测出的奖励函数作出更优的行为

二、前提条件和方法

1、设置和目标

智能体与环境交互，在每个时刻 $t$ 都会从环境中接收到一个观测值 $o_t\in O$ ，然后再向环境发送一个动作 $a_t\in A$ 。在传统的强化学习中，环境除了发送一个观测值，还会产生奖励信号 $r_t\in R$ ，智能体的目标就是最大化折扣奖励的总和。
OpenAI 的方法是假设没有环境或产生的奖励信号，而是有一个人类监督者可以表达轨迹段间的偏好，所谓的轨迹段是一系列观测和动作，即 $\sigma=\Big((o_o,a_0),(o_1,a_1),\cdots,(o_{k-1},a_{k-1})\Big)\in \Big(O\times A\Big)^k$ ， $\sigma^1>\sigma^2$ 表示人类偏好于轨迹段 $\sigma^1$ ，而智能体的目标是产生人类更喜欢的轨迹，同时向人类提出尽可能少的交互。

2、方法

一个深度神经网络模型来预测策略 $\pi:O\rightarrow A$ 。另一个深度神经网络模型来预测奖励 $\hat r:O\times A \rightarrow R$ ，它们的更新过程如下：

策略 $\pi$ 与环境交互产生一组轨迹 $\tau^1,\cdots,\tau^i$ ，然后通过传统的强化学习算法更新 $\pi$ 的参数，目标使得预测的奖励总和 $r_t = \hat r(o_t,a_t)$ 最大化。
从轨迹 $\tau^1,\cdots,\tau^i$ 中选取片段 $(\sigma^1,\sigma^2)$ 发送给人类监督者进行比较。
$\hat r$ 的参数通过监督学习进行优化，即通过所收集的片段比较结果来更新参数。

这些流程异步运行： $(1)\rightarrow (2),(2)\rightarrow(3),(3)\rightarrow(1)$

2.1 优化策略

EasonZzzzzzz

关注

5
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
＜基于人类偏好的深度强化学习＞

限制强化学习应用的一个重要原因就是，许多任务所涉及的目标都很复杂或者不太明确，因此很难人为设计一个奖励函数来激励智能体进行学习。有两个方法可以解决这个问题：① 通过人类标注数据使用逆强化学习获得奖励函数模型，这样有了奖励函数之后，就可以使用一般的强化学习的方法去找出最优策略/动作。② 人类直接对智能体的当前策略/动作提供反馈，也就是用人类来替代奖励函数。OpenAI 的方法是从人类反馈中学习奖励函数，然后再优化奖励函数。
复制链接

扫一扫

专栏目录