<基于人类偏好的深度强化学习>

一、引言

限制强化学习应用的一个重要原因就是,许多任务所涉及的目标都很复杂或者不太明确,因此很难人为设计一个奖励函数来激励智能体进行学习。

有两个方法可以解决这个问题:
① 通过人类标注数据使用逆强化学习获得奖励函数模型,这样有了奖励函数之后,就可以使用一般的强化学习的方法去找出最优策略/动作。
② 人类直接对智能体的当前策略/动作提供反馈,也就是用人类来替代奖励函数。

OpenAI 的方法是从人类反馈中学习奖励函数,然后再优化奖励函数。总而言之,在没有一个明确的奖励函数的前提下,希望获得一个解决以下问题的策略模型。

  1. 确保可以解决问题
  2. 允许非专业人士训练智能体
  3. 解决大型复杂问题
  4. 用于训练的人工反馈量尽可能少

在这里插入图片描述

  1. 首先,智能体的一对1-2秒的行为片段定期地回馈给人类操作员,人类基于偏好对智能体的行为作出某种偏好性的选择评判
  2. 接着,人类这种基于偏好的选择评判被预测器(reward predictor)来预测奖励函数
  3. 智能体通过预测器预测出的奖励函数作出更优的行为

二、前提条件和方法

1、设置和目标

智能体与环境交互,在每个时刻 t t t 都会从环境中接收到一个观测值 o t ∈ O o_t\in O otO,然后再向环境发送一个动作 a t ∈ A a_t\in A atA。在传统的强化学习中,环境除了发送一个观测值,还会产生奖励信号 r t ∈ R r_t\in R rtR,智能体的目标就是最大化折扣奖励的总和。
OpenAI 的方法是假设没有环境或产生的奖励信号,而是有一个人类监督者可以表达轨迹段间的偏好,所谓的轨迹段是一系列观测和动作,即 σ = ( ( o o , a 0 ) , ( o 1 , a 1 ) , ⋯   , ( o k − 1 , a k − 1 ) ) ∈ ( O × A ) k \sigma=\Big((o_o,a_0),(o_1,a_1),\cdots,(o_{k-1},a_{k-1})\Big)\in \Big(O\times A\Big)^k σ=((oo,a0),(o1,a1),,(ok1,ak1))(O×A)k σ 1 > σ 2 \sigma^1>\sigma^2 σ1>σ2 表示人类偏好于轨迹段 σ 1 \sigma^1 σ1,而智能体的目标是产生人类更喜欢的轨迹,同时向人类提出尽可能少的交互。

2、方法

一个深度神经网络模型来预测策略 π : O → A \pi:O\rightarrow A π:OA。另一个深度神经网络模型来预测奖励 r ^ : O × A → R \hat r:O\times A \rightarrow R r^:O×AR,它们的更新过程如下:

  1. 策略 π \pi π 与环境交互产生一组轨迹 τ 1 , ⋯   , τ i \tau^1,\cdots,\tau^i τ1,,τi,然后通过传统的强化学习算法更新 π \pi π 的参数,目标使得预测的奖励总和 r t = r ^ ( o t , a t ) r_t = \hat r(o_t,a_t) rt=r^(ot,at) 最大化。
  2. 从轨迹 τ 1 , ⋯   , τ i \tau^1,\cdots,\tau^i τ1,,τi 中选取片段 ( σ 1 , σ 2 ) (\sigma^1,\sigma^2) (σ1,σ2) 发送给人类监督者进行比较。
  3. r ^ \hat r r^ 的参数通过监督学习进行优化,即通过所收集的片段比较结果来更新参数。

这些流程异步运行: ( 1 ) → ( 2 ) , ( 2 ) → ( 3 ) , ( 3 ) → ( 1 ) (1)\rightarrow (2),(2)\rightarrow(3),(3)\rightarrow(1) (1)(2),(2)(3),(3)(1)

2.1 优化策略

  • 5
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值