「AlphaGo 之父」David Sliver 等人最近探索的方向转向了强化学习和深度 Q 网络(Deep Q-Network)。在 DeepMind 最近发表的论文中,研究人员整合了 DQN 算法中的六种变体,在 Atari 游戏中达到了超越以往所有方法的表现。
大规模强化学习(RL)在复杂连续决策问题中最成功的方法是 Deep Q-Network 算法(DQN; Mnih et al. 2013, 2015)。它包含了 Q 学习的卷积神经网络与以及反复经验(experience replay)而从原像素中学习,已在多种 Atari 游戏中达到或超过了人类水平的表现。从那时起,很多扩展性方法被不断提出,不断提升着这种方法的速度和稳定性。
Double DQN(DDQN;van Hasselt、Guez&Silver;2016)通过解耦选择(decoupling selection)和引导行动评估解决了 Q 学习过度估计偏差的问题。Prioritized experience replay(Schaul 等人;2015)通过重放(replay)学习到更频繁的转换,提升了数据效率。dueling 网络架构(Wang 等人;2016)可以通过分别表示状态值和动作奖励来概括各种动作。从多步骤引导程序目标中学习(Sutton;1988;Sutton & Barto 1998)如 A3C(Mnih 等人;20