CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

CONTINUOUS CONTROL WITH DEEP REINFORCEMENT LEARNING

论文

我们将Deep Q-Learning成功的基础思想调整到连续行动领域。我们提出了一种基于确定性策略梯度(deterministic policy gradient)的actor-critic、model-free的算法,可以在连续行动空间上运行。使用相同的学习算法、网络结构和超参数,我们的算法稳健地解决了20多个模拟物理任务,包括经典问题,如车杆摆动、灵巧的操纵、腿部运动和汽车驾驶。

我们的算法能够找到一些策略,这些策略的性能与那些能够完全接触到领域动态及其导数的规划算法所找到的政策具有竞争力。我们进一步证明,对于许多任务,该算法可以 "端到端 "学习策略:直接从原始像素输入中学习。

1 INTRODUCTION

人工智能领域的主要目标之一是通过未经处理的高维感官输入解决复杂的任务。最近,通过将感官处理的深度学习的进展(Krizhevsky等人,2012)与强化学习相结合,取得了重大进展,形成了 “深度Q网络”(DQN)算法(Mnih等人,2015),该算法能够在许多使用未处理的像素输入的Atari视频游戏中达到人类水平。为此,深度神经网络函数近似器被用来估计行动-价值函数。

然而,DQN在解决高维观测空间问题的同时,只能处理离散的、低维的行动空间。许多感兴趣的任务,尤其是物理控制任务,具有连续(实值)和高维的行动空间。DQN不能直接应用于连续领域,因为它依赖于找到使行动价值函数最大化的行动,在连续值情况下,这需要在每一步进行迭代优化过程。

将DQN等深度强化学习方法适应于连续领域的一个明显方法是简单地离散动作空间。然而,这有很多局限性,最明显的是维度的诅咒:行动的数量随着自由度的增加而呈指数级增长。例如,一个7个自由度的系统(如人类的手臂),每个关节的最粗离散化 a i ∈ { − k , 0 , k } a_i∈\{-k, 0, k\} ai{k,0,k},导致行动空间的维度: 3 7 3^7 37=2187。

对于需要精细控制动作的任务,情况甚至更糟,因为它们需要相应的更精细的离散化,导致离散动作的数量爆炸。这样大的行动空间很难有效地探索,因此在这种情况下成功地训练类似DQN的网络可能是难以实现的。此外,动作空间的天真离散化不必要地丢掉了关于动作域结构的信息,而这些信息对于解决许多问题可能是至关重要的。

在这项工作中,我们提出了一种无模型、非策略性的actor-critic算法,使用深度函数近似器,可以在高维、连续的行动空间中学习策略。我们的工作基于确定性策略梯度(DPG)算法(Silver等人,2014)(本身与NFQCA(Hafner & Riedmiller,2011)相似,类似的想法可以在(Prokhorov等人,1997)中找到)。然而,正如我们在下文中所展示的,对于具有挑战性的问题,这种带有神经函数近似器的actor-critic方法的天真应用是不稳定的。

在这里,我们将actor-critic与最近成功的DQN(Mnih等人,2013;2015)的见解相结合。在DQN之前,人们普遍认为使用大型非线性函数近似器学习价值函数是困难的,而且不稳定。由于两项创新,DQN能够以稳定和稳健的方式使用这种函数近似物学习价值函数。1.网络是用来自replay buffer的样本进行off-policy训练的,以尽量减少样本之间的相关性;2.网络是用目标Q网络训练的,以在temporal difference backups期间提供一致的目标。在这项工作中,我们利用了同样的想法,以及batch normalization(Ioffe & Szegedy, 2015),这是深度学习的最新进展。

为了评估我们的方法,我们构建了各种具有挑战性的物理控制问题,涉及复杂的多关节运动、不稳定和丰富的接触动力学以及步态行为。在这些问题中,有经典的问题,如车杆摆动问题,也有许多新的领域。机器人控制的一个长期挑战是直接从原始感觉输入(如视频)中学习动作策略。因此,我们在模拟器中放置了一个固定视角的摄像机,并尝试使用低维观察(如关节角度)和直接从像素中获取所有任务。

为了评估我们的方法,我们构建了各种具有挑战性的物理控制问题,涉及复杂的多关节运动、不稳定和丰富的接触动力学以及步态行为。在这些问题中,有经典的问题,如车杆摆动问题,也有许多新的领域。机器人控制的一个长期挑战是直接从原始感觉输入(如视频)中学习动作策略。因此,我们在模拟器中放置了一个固定视角的摄像机,并尝试使用低维观察(如关节角度)和直接从像素中获取所有任务。

我们的model-free方法,我们称之为深度DPG(Deep DPG),可以使用相同的超参数和网络结构,通过低维观测(如车轴坐标或关节角度)为我们所有的任务学习有竞争力的策略。在许多情况下,我们也能够直接从像素中学习好的策略,同样保持超参数和网络结构不变。

该方法的一个关键特征是它的简单性:它只需要一个简单的actor-critic 架构和学习算法,只有很少的 “moving parts”,这使得它很容易实现并扩展到更困难的问题和更大的网络。对于物理控制问题,我们将我们的结果与一个planner(Tassa等人,2012)计算的基线进行了比较,该planner可以完全访问底层模拟动态及其导数(见补充信息)。有趣的是,DDPG有时可以找到超过规划器性能的策略,在某些情况下,甚至在从像素学习时(规划器总是在底层低维状态空间上进行规划)。

2 BACKGROUND

我们考虑一个标准的强化学习设置,包括一个agent在离散的时间步数中与环境E互动。在每个时间段t,agent收到一个观察值 x t x_t xt,采取一个行动 a t a_t at,并收到一个标量奖励 r t r_t rt。在这里考虑的所有环境中,actions是实值的 a t ∈ R N a_t∈\mathbb R^N atRN。一般来说,环境可能被部分观察到,因此可能需要整个观察历史,, action pairs s t = ( x 1 , a 1 , . . . , a t − 1 , x t ) s_t=(x_1, a_1, ..., a_{t-1}, x_t) st=(x1,a1,...,at1,xt来描述状态。在这里,我们假设环境是完全被观察到的,所以 s t = x t s_t = x_t st=xt

agent的行为由策略π定义,该策略将状态映射为行动的概率分布 π : S → P ( A ) π:\mathcal S→\mathcal P(\mathcal A) πSP(A)。环境,E,也可能是随机的。我们将其建模为一个马尔科夫决策过程,具有状态空间 S \mathcal S S、行动空间 A = R N \mathcal A=\mathbb R^N A=RN、初始状态分布 p ( s 1 ) p(s_1) p(s1)、transition dynamics p ( s t + 1 ∣ s t , a t ) p(s_{t+1}|s_t, a_t) p(st+1st,at)和奖励函数 r ( s t , a t ) r(s_t, a_t) r(st,at)

一个状态的回报被定义为未来回报的贴discounted之和 R t = Σ i = t T γ ( i − t ) r ( s i , a i ) R_t=\Sigma^T_{i=t}γ^{(i-t)}r(s_i, a_i) Rt=Σi=tTγ(it)r(si,ai),discounted系数γ∈[0, 1]。请注意,回报取决于所选择的行动,因此也取决于策略π,并且可能是随机的。强化学习的目标是学习一个策略,使起始分布 J = E r i , s i ∼ E , a i ∼ π [ R 1 ] J=E_{r_i,s_i}∼E_{,a_i∼π}[R_1] J=Eri,siE,aiπ[R1]的预期收益最大化。我们把策略π的dthe discounted state visitation distribution表示为 ρ π ρ^π ρπ

许多强化学习算法都使用了 action-value函数。它描述了在状态 s t s_t st下采取一个行动后的预期收益,此后遵循策略π:

在这里插入图片描述

强化学习中的许多方法利用了被称为贝尔曼方程的递归关系

在这里插入图片描述

如果目标策略是确定性的,我们可以将其描述为函数 µ : S ← A µ:\mathcal S←\mathcal A µ:SA,并避免内部期望:

在这里插入图片描述

The expectation depends only on the environment. This means that it is possible to learn Q µ Q^µ Qµ off-policy, using transitions which are generated from a different stochastic behavior policy β.

Q-learning(Watkins & Dayan, 1992)是一种常用的off-policy性算法,使用贪婪政策 µ ( s ) = a r g   m a x a   Q ( s , a ) µ(s) = arg\ max_a\ Q(s, a) µ(s)=arg maxa Q(s,a) 。我们考虑以 θ Q θ^Q θQ为参数的函数近似器,我们通过最小化损失来优化它:

在这里插入图片描述

虽然 y t y_t yt也依赖于 θ Q θ^Q θQ,但这通常被忽略了。

过去常常避免使用大型非线性函数近似器来学习价值或行动价值函数,因为理论上的性能保证是不可能的,而且实际上的学习往往是不稳定的。最近,(Mnih等人,2013;2015)调整了Q-learning算法,以便有效利用大型神经网络作为函数近似器。他们的算法能够从像素中学习玩Atari游戏。为了扩大Q-learning的规模,他们引入了两个主要的变化:使用a replay buffe,以及一个单独的目标网络来计算 y t y_t yt。我们在DDPG的背景下采用这些方法,并在下一节中解释其实现。

uffe,以及一个单独的目标网络来计算 y t y_t yt。我们在DDPG的背景下采用这些方法,并在下一节中解释其实现。

3 ALGORITH

将Q-learning直接应用于连续行动空间是不可能的,因为在连续空间中,寻找贪婪的策略需要在每个时间点上进行优化;这种优化太慢了,对于大型、无约束的函数近似器和非线性行动空间来说是不现实的。相反,我们在这里使用了基于DPG算法(Silver等人,2014)的演员批评方法

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值