D Q N DQN DQN
前置:
一般掌握DQN需要看5篇文章:
前两篇基础:
- 《Playing Atari with Deep Reinforcement Learning》-2013
- 《Human-level control through deep reinforcement learning》-2015
后三篇改进:
- 《Deep Reinforcement Learning with Double Q-learning》-2016
- 《Dueling Network Architectures for Deep Reinforcement Learning》-2016
- 《PRIORITIZED EXPERIENCE REPLAY》-2016
代码实例(论文复现)
演示图片
DQN之前:
当时主流的研究方法是使用人工设计的特征,结合线性函数以拟合value function,这是因为非线性方法经常难以收敛
同时也有一部分使用深度学习拟合某个固定策略的value function,并保证了收敛,但是还没有类似的方法推广到非线性的控制问题中
Deep Q-Network历史意义:
- 正式开启深度强化学习的阶段
- 强化学习智能体首次轻易超越人类
- 一部分研究人员开始认识到强化学习和深度学习结合的潜力
- 这是第一篇成功的结合深度学习和强化学习的研究成果,让强化学习不借助人工设计的特征
- 使用非线性函数来拟合value function