DDPG Continuous control with deep reinforcement learning笔记

DDPG是结合DQN思想的无模型、off-policy actor-critic算法,用于解决高维连续动作空间的强化学习问题。论文提出的方法能够稳定地在多个物理任务中学习到高性能策略,甚至直接从原始像素输入获取动作,无需离散化动作空间,且使用了经验回放和目标网络以增强算法稳定性。
摘要由CSDN通过智能技术生成

Continuous control with deep reinforcement learning

综述:

1. 论文讲了什么/主要贡献是什么

受到DQN算法的启发,将非线性函数逼近器用到了DPG算法中设计出DDPG算法,为了保证算法稳定性,将DQN中的两个核心思想:经验回放和目标网络加入到了DDPG算法中。这个算法中也有一些DDQN的思想。

2. 论文摘要:

We adapt the ideas underlying the success of Deep Q-Learning to the continuous action domain. We present an actor-critic, model-free algorithm based on the deterministic policy gradient that can operate over continuous action spaces. Using the same learning algorithm, network architecture and hyper-parameters, our algorithm robustly solves more than 20 simulated physics tasks, including classic problems such as cartpole swing-up, dexterous manipulation, legged locomotion and car driving. Our algorithm is able to find policies whose performance is competitive with those found by a planning algorithm with full access to the dynamics of the domain and its derivatives. We further demonstrate that for many of the tasks the algorithm can learn policies “end-to-end”: directly from raw pixel inputs.

我们将深度Q-Learning的优势应用在了连续控制领域。我们展示了基于确定性策略梯度的actor-critic无模型算法。使用了相同的学习算法、网络结构和超参数,我们的算法能够鲁棒地解决超过20模拟物理任务,包括经典的问题如cartpole swing-up、dexterous manipulation、legged locomotion和car driving。我们的算法能够找到性能与能够完全访问环境动态及其衍生物的规划算法相比有竞争力的策略。我们进一步证明,对于许多任务,算法可以学习“端到端”策略:直接从原始像素输入获得动作输出。

3. 论文主要观点:

3.1 背景:

人工智能领域的主要目标之一是通过未处理的、高维的、传感器输入来解决复杂的任务。最近,已取得显著进展,将传感器信息处理深度学习的进步(Krizhevsky et al ., 2012)与强化学习结合,提出了“深度Q网络”(DQN)算法(Mnih et al ., 2015),DQN能够使用未经处理的像素进行输入来进行决策后在许多雅达利视频游戏中达到人类的水平。DQN使用深度神经网络函数逼近器来估计动作值函数以达到上述的性能水平。

3.2 问题:

DQN在解决高维观测空间问题的同时,只能处理离散的、低维的动作空间。许多有趣的任务,尤其是物理控制任务,都具有连续的(实值)和高维的操作空间。DQN不能直接应用于连续域,因为它依赖于找到使动作值函数最大化的动作,而在连续值情况下,每一步都需要迭代优化过程。

将DQN应用于连续控制领域的一个方法是将动作空间离散化,但这可能会导致维度灾难。即使是粗粒度的离散化,将一个自由度离散化为三个离散值,那么7个维度的动作空间就会有 3 7 = 2187 3^7=2187 37=2187维度(如人手臂的控制)。并且简单的将动作空间离散化可能会丢失动作空间的重要结构信息,这些信息可能对解决一些问题非常有价值。

这篇文中中提出了无模型、off-policy actor-critic算法,使用了能够在高维连续操作空间中学习策略的深度函数逼近器。使用了确定性策略迭代(DPG)算法。但简单的将actor-critic算法与神经网络函数逼近器应用在一起在一些具有挑战性的问题中是不稳定的。

在DQN之前,人们普遍认为使用大型非线性函数逼近器学习值函数是困难和不稳定的。DQN之所以能够以一种稳定且鲁棒的方式使用这些函数逼近器来学习值函数,主要有两个创新:1.利用重放缓冲区中的样本对网络进行离线训练,以最小化样本之间的相关性;2. 该网络使用目标Q网络进行训练,以便在时间差异备份期间提供一致的目标(the network is trained with a target Q network to give consistent targets during temporal difference backups)。

在这篇文章中使用了同样的思想,并且还使用了batch normalization(Ioffe & Szegedy, 2015)。

文中无模型方法就是Deep DPG (DDPG),它可以使用相同的超参数和网络结构,通过低维观测(例如笛卡尔坐标或关节角度),得到一个就有竞争性的策略。这个方法最大的优势在于他的简单性,他只需要直接应用actor-critic结构以及只有很少的“moving parts”的学习算法,这使得它易于实现和扩展到更困难的问题和更大的网络。

3.3 方法:

当前环境为 E E E,环境的模型为一个马尔科夫决策过程,状态空间为 S S S,动作空间为 A = R N A=\R^N A=RN,初始状态分布为 p ( s 1 ) p(s_1) p(s1),转移动态为 p ( s t + 1 ∣ s t , a t ) p(s_{t+1}|s_t,a_t) p(st+1st,at),回报函数为 r ( s t , a t ) r(s_t,a_t) r(st,at)

一个状态的回报为: R t = ∑ i = 1 T γ ( i − t ) r ( s t , a i ) R_t=\sum_{i=1}^T\gamma^{(i-t)}r(s_t,a_i) Rt=i=1T

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值