JoyRL论文阅读《Deep Recurrent Q-Learning for Partially Observable MDPs, Hausknecht and Stone》

Deep Recurrent Q-Learning for Partially Observable MDPs(部分可观测马尔可夫决策过程的深度循环Q学习)

作者:Matthew Hausknecht,Peter Stone
单位:Department of Computer Science The University of Texas at Austin
论文发表会议:National conference on artificial intelligence
论文发表时间:Submitted on 23 Jul 2015, last revised 11 Jan 2017
论文查看网址:https://arxiv.org/abs/1507.06527

论文贡献:提出一种基于DQN的神经网络模型(DRQN),将包含卷积神经网络(CNN)的DQN模型和LSTM结合,使强化学习智能体拥有记忆力的特性。

一. 写作动机

Why:
Playing Atari with Deep Reinforcement Learning(Mnih et al., 2013) 中,DQN是使用智能体(Agent)遇到的包含当前状态的最后4个状态的组成(最后4个画面)作为输入目的是获得画面中物体/角色的方向速度等信息。但换句话说,倘若遇到需要记忆特征超过四个画面的时间跨度任务时,对于DQN来说,则会由马尔可夫决策过程(MDP)变成部分可观测的马尔可夫决策过程(POMDP)。

What:
部分可观测的马尔可夫决策过程(Partially-Observable Markov Decision Process, POMDP)是指:当前观测(Observation,obs)的不完整且带有噪音,不包含环境运作的所有状态。导致无法作为环境(Environment,env)的完整描述信息(智能体得到观测跟环境的状态不等价)。

How:
论文作者提出,为避免因部分可观测的马尔可夫决策过程(POMDP)导致DQN在任务环境学习的过程中出现性能下降,引入Deep Recurrent Q-Network (DRQN),是基于LSTM(Long Short-Term Memory,LSTM)和DQN的组合。并证明使用DRQN能有效处理部分可观测的马尔可夫决策过程(POMDP),当评估智能体时,输入智能体的观测(obs)发生变化(遮盖、画面闪烁)时,因参数化价值函数(Value function)包含循环神经网络层(LSTM)能够使学习到的 策略 π θ \pi_{\theta } πθ 具有鲁棒性,不会发生策略崩塌。

二. 背景介绍

1. Deep Q-Learning(深度Q学习)

使用深度Q学习方法,是通过参数为 θ \theta θ的深度神经网络来近似价值函数(Value Function) V ( s ) V(s) V(s)或动作价值函数(Action-Value Function) Q ( s , a ) Q(s,a) Q(s,a)来隐式的学习最优策略 π ∗ \pi ^* π,输入环境的观测(obs),输出对观测(obs)估计的V值或Q值。

深度Q学习适用场景:连续状态空间(State space)离散动作空间(Action Space)任务。

价值函数的作用为:评估在当前状态-动作下,未来回报(Return)的期望。

使用深度神经网络作为强化学习的参数化值函数近似器的优点:
(1)具有深度学习自动提取特征的能力。
(2)参数化模型将现有可见的观测(obs)泛化到没有见过的观测(obs): ∣ θ ∣ ≪ ∣ S × A ∣ |\theta|\ll|S\times A| θS×A
(3)参数化模型可通过求导数的形式来更新神经网络模型参数。

参数化价值函数为:
V θ ( s ) ≅ V π ( s ) Q θ ( s , a ) ≅ Q π ( s , a ) V_\theta (s)\cong V^\pi (s) \\ Q_\theta (s,a)\cong Q^\pi (s,a) Vθ(s)Vπ(s)Qθ(s,a)Qπ(s,a)

深度Q学习保持学习稳定的技巧(Trick):
(1)经验回放(Experience Replay):针对数据层面的相关性和数据分布变化做改进,使得数据尽可能满足独立同分布(i.d.d)属性。
(2)目标网络(Target Network):解决在时序差分(Temporal Difference,TD)学习时,TD target和当前Q网络高度相关的问题。

深度Q学习的损失函数(Loss Function)为:
L i ( θ i ) = E ( s , a , r , s ′ ) ∼ D [ ( y i − Q ( s , a ; θ i ) ) 2 ] y i = r + γ max ⁡ a ′ Q ^ ( s ′ , a ′ ; θ − ) \mathcal{L}_{i}\left(\theta_{i}\right)=\mathbb{E}_{\left(s, a, r, s^{\prime}\right) \sim \mathcal{D}}\left[\left(y_{i}-Q\left(s, a ; \theta_{i}\right)\right)^{2}\right] \\ y_{i}=r+\gamma \max _{a^{\prime}} \hat{Q}\left(s^{\prime}, a^{\prime} ; \theta^{-}\right) Li(θi)=E(s,a,r,s)

  • 4
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Mr.小林

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值