dnf强化卷代码_附：强化学习——DRQN分析详解-CSDN博客

本文链接：https://blog.csdn.net/weixin_42128558/article/details/112279331

本文详细介绍了DRQN（深度递归强化学习）算法，针对DQN在部分可观测环境中的局限性，DRQN通过引入LSTM以增强记忆能力。文章探讨了DRQN的结构设计、更新方式，并通过对比实验展示了DRQN在处理不完整观测信息上的优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、问题引入与DQN的不足

传统的DQN有两点局限性： 1. 经验数据存储的内存有限。 2. 需要完整的观测信息。

为了解决上述两个问题，设计了DRQN算法，将DQN中的全连接层替换为LSTM网络。当时用部分观测数据训练模型，使用完全观测数据评估模型时，模型的效果与观测数据的完整性有关。如果反过来，当使用完全观测数据进行训练，使用部分观测数据进行评估时，DRQN的效果下降小于DQN。循环网络在观测质量变化的情况下，具有更强的适应性。

DeepMind关于DQN的原文中，通常Atari等游戏，常常通过将最近的4帧画面组成一个状态传入DQN中进行学习，这是由于仅凭借1帧画面很难判断部分物体的运动方向速度等信息，例如在Pong的游戏中，凭1帧的画面只能获取球跟球拍的位置，无法获取球将要运动的方向与速度，但是DRQN则可使用1帧替代之前的4帧称为一个状态，进行学习决策。但是如果在某些游戏中，4帧的画面还是无法满足状态的表达，这时就需要循环网络来辅助记忆。因为无法表达当前状态，就使得整个系统不具有马尔科夫性，其reward不仅与这帧画面有关，还与前若干帧画面有关。

在部分可观情况下MDP变为POMDP（部分可观马尔可夫决策过程）。在POMDP中，如果对DQN引入RNN（循环神经网络）来处理不完全观测将会取得较好的效果。DQRN相对于DQN能够更好的处理缺失的信息。