dnf强化卷代码_附:强化学习——DRQN分析详解

4d09c51115958b934e9a0c92a5a13027.png

一、问题引入与DQN的不足

传统的DQN有两点局限性: 1. 经验数据存储的内存有限。 2. 需要完整的观测信息。

为了解决上述两个问题,设计了DRQN算法,将DQN中的全连接层替换为LSTM网络。当时用部分观测数据训练模型,使用完全观测数据评估模型时,模型的效果与观测数据的完整性有关。如果反过来,当使用完全观测数据进行训练,使用部分观测数据进行评估时,DRQN的效果下降小于DQN。循环网络在观测质量变化的情况下,具有更强的适应性。

d2f007481c835550f8f5383befd72812.png

DeepMind关于DQN的原文中,通常Atari等游戏,常常通过将最近的4帧画面组成一个状态传入DQN中进行学习,这是由于仅凭借1帧画面很难判断部分物体的运动方向速度等信息,例如在Pong的游戏中,凭1帧的画面只能获取球跟球拍的位置,无法获取球将要运动的方向与速度,但是DRQN则可使用1帧替代之前的4帧称为一个状态,进行学习决策。但是如果在某些游戏中,4帧的画面还是无法满足状态的表达,这时就需要循环网络来辅助记忆。因为无法表达当前状态,就使得整个系统不具有马尔科夫性,其reward不仅与这帧画面有关,还与前若干帧画面有关。

在部分可观情况下MDP变为POMDP(部分可观马尔可夫决策过程)。在POMDP中,如果对DQN引入RNN(循环神经网络)来处理不完全观测将会取得较好的效果。DQRN相对于DQN能够更好的处理缺失的信息。

二、预备知识

1. DQN

DQN的思想就是设计一个

不断逼近真实的
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值