1、论文摘要
论文中使用带视觉注意力机制的循环神经网络改进 了传统的dqn,新模型的关键思想有两点:
- 使用双层门限循环单元构成的循环神经网络模块来记忆较长时间步内的历史信息。这使得agent能够及时使用有延迟的反馈 奖赏来正确地指导下一步的动作选择;
- 通过视觉注意力机制自适应地将注意力集中于面积较小但更具价值的图像区域,从而使得agent能够更加高效地学习近似最优策略。
论文通过选取一些经典的Atari2600战略性游戏作为实验对象来评估新模型的有效性,实验结果表明,与传统的深度强化学习模型相比,新模型在一些战略性任务 上具有很好的性能表现和较高的稳定性.
2、模型架构
- 预处理
DQN是将离当前时刻最近的4幅原始游戏画面经过预处理之后输入到网络模型中,因此输入状 态的规模为4*84*84.文章提出的VAM-DRQN, 引入了RNN来存储游戏过程中多时间步的历史状态信息,因此只需要将该预处理操作运用于当前 的一幅游戏画面中.也就是在每个训练时间步,输入状态的规模仅仅是1×84×84,这使得状态空间的 大小缩小至原来DQ&