DeepMind提出Rainbow：整合DQN算法中的六种变体

最新推荐文章于 2024-07-28 19:33:31 发布

机器之心V

最新推荐文章于 2024-07-28 19:33:31 发布

阅读量7.3k

点赞数 2

文章标签：人工智能

本文链接：https://blog.csdn.net/Uwr44UOuQcNsUQb60zk2/article/details/78333949

版权

Rainbow是DeepMind提出的强化学习算法，整合了DQN的六种变体，包括Double DQN、Prioritized experience replay等，提升了数据效率和性能，达到Atari 2600游戏的业界最佳水平。

摘要由CSDN通过智能技术生成

「AlphaGo 之父」David Sliver 等人最近探索的方向转向了强化学习和深度 Q 网络（Deep Q-Network）。在 DeepMind 最近发表的论文中，研究人员整合了 DQN 算法中的六种变体，在 Atari 游戏中达到了超越以往所有方法的表现。

大规模强化学习（RL）在复杂连续决策问题中最成功的方法是 Deep Q-Network 算法（DQN; Mnih et al. 2013, 2015）。它包含了 Q 学习的卷积神经网络与以及反复经验（experience replay）而从原像素中学习，已在多种 Atari 游戏中达到或超过了人类水平的表现。从那时起，很多扩展性方法被不断提出，不断提升着这种方法的速度和稳定性。

Double DQN（DDQN；van Hasselt、Guez&Silver；2016）通过解耦选择（decoupling selection）和引导行动评估解决了 Q 学习过度估计偏差的问题。Prioritized experience replay（Schaul 等人；2015）通过重放（replay）学习到更频繁的转换，提升了数据效率。dueling 网络架构（Wang 等人；2016）可以通过分别表示状态值和动作奖励来概括各种动作。从多步骤引导程序目标中学习（Sutton；1988；Sutton & Barto 1998）如 A3C（Mnih 等人；20