Deep Attention Recurrent Q-Network 5vision groups

最新推荐文章于 2024-03-21 10:51:16 发布

智元元

最新推荐文章于 2024-03-21 10:51:16 发布

阅读量316

点赞数

分类专栏： attention方法

本文链接：https://blog.csdn.net/qq_41352018/article/details/80551228

版权

本文介绍了Deep Attention Recurrent Q-Network（DARQN），它融合了卷积神经网络（CNN）、注意力机制和循环神经网络（LSTM），以解决DQN在Atari游戏中长期记忆的问题。DARQN利用注意力模型减少参数数量，加快训练和测试速度，同时提高可读性，揭示智能体的关注点。作者提供了源代码供进一步研究。

摘要由CSDN通过智能技术生成

摘要：本文将 DQN 引入了 Attention 机制，使得学习更具有方向性和指导性。（前段时间做一个工作打算就这么干，谁想到，这么快就被这几个孩子给实现了，自愧不如啊( ⊙ o ⊙ )）

　引言：我们知道 DQN 是将连续 4帧的视频信息输入到 CNN 当中，那么，这么做虽然取得了不错的效果，但是，仍然只是能记住这 4 帧的信息，之前的就会遗忘。所以就有研究者提出了 Deep Recurrent Q-Network (DRQN)，一个结合 LSTM 和 DQN 的工作：

　　1. the fully connected layer in the latter is replaced for a LSTM one ,

　　2. only the last visual frame at each time step is used as DQN's input.

　　作者指出虽然只是使用了一帧的信息，但是 DRQN 仍然抓住了帧间的相关信息。尽管如此，仍然没有看到在 Atari game上有系统的提升。

　　另一个缺点是：长时间的训练时间。据说，在单个 GPU 上训练时间达到 12-14天。于是，有人就提出了并行版本的算法来提升训练速度。作者认为并行计算并不是唯一的，最有效的方法来解决这个问题。　

　　最近 visual attention models 在各个任务上都取得了惊人的效果。利用这个机制的优势在于：仅仅需要选择然后注意一个较小的图像区域，可以帮助降低参数的个数，从而帮助加速训练和测试。对比 DRQN，本文的 LSTM 机制存储的数据不仅用于下一个 actions 的选择，也用于选择下一个 Attention 区域。此外，除了计算速度上的改进之外，Attention-based models 也可以增加 Deep Q-Learning 的可读性，提供给研究者一个机会去观察 agent 的集中区域在哪里以及是什么，（where and what）。

　　Deep Attention Recurrent Q-Network：