
一、问题引入与DQN的不足
传统的DQN有两点局限性: 1. 经验数据存储的内存有限。 2. 需要完整的观测信息。
为了解决上述两个问题,设计了DRQN算法,将DQN中的全连接层替换为LSTM网络。当时用部分观测数据训练模型,使用完全观测数据评估模型时,模型的效果与观测数据的完整性有关。如果反过来,当使用完全观测数据进行训练,使用部分观测数据进行评估时,DRQN的效果下降小于DQN。循环网络在观测质量变化的情况下,具有更强的适应性。

DeepMind关于DQN的原文中,通常Atari等游戏,常常通过将最近的4帧画面组成一个状态传入DQN中进行学习,这是由于仅凭借1帧画面很难判断部分物体的运动方向速度等信息,例如在Pong的游戏中,凭1帧的画面只能获取球跟球拍的位置,无法获取球将要运动的方向与速度,但是DRQN则可使用1帧替代之前的4帧称为一个状态,进行学习决策。但是如果在某些游戏中,4帧的画面还是无法满足状态的表达,这时就需要循环网络来辅助记忆。因为无法表达当前状态,就使得整个系统不具有马尔科夫性,其reward不仅与这帧画面有关,还与前若干帧画面有关。
在部分可观情况下MDP变为POMDP(部分可观马尔可夫决策过程)。在POMDP中,如果对DQN引入RNN(循环神经网络)来处理不完全观测将会取得较好的效果。DQRN相对于DQN能够更好的处理缺失的信息。
二、预备知识
1. DQN
DQN的思想就是设计一个