深度强化学习系列第一讲 DQN

最新推荐文章于 2024-08-08 12:11:22 发布

智元元

最新推荐文章于 2024-08-08 12:11:22 发布

阅读量2.4k

点赞数 2

分类专栏：深度强化学习

本文链接：https://blog.csdn.net/qq_41352018/article/details/80274241

版权

本文是深度强化学习系列的第一讲，主要讲解DQN算法，它是基于Q-learning并引入深度学习的方法。DQN的创新点包括：1) 使用深度卷积神经网络逼近值函数；2) 引入经验回放打破数据关联性；3) 设置目标网络减少TD偏差。DQN的稳定性和收敛性得益于这些改进，使其在强化学习领域取得了突破。

摘要由CSDN通过智能技术生成

前言：深度强化学习系列是以强化学习入门为基础的，所以在学习本系列之前，请先学习强化学习入门第一讲到第五讲。另外，深度强化学习用到了深度学习（deep learning），本讲默认读者已经对深度学习有所了解。

强化学习逐渐引起公众的注意要归功于谷歌DeepMind公司。DeepMind公司最初是由Demis Hassabis, Shane Legg和Mustafa Suleyman于2010年创立的。创始人Hassabis有三重身份：游戏开发者，神经科学家以及人工智能创业者。Hassabis的游戏开发者的身份使人不难理解DeepMind在nature上发表的第一篇论文是以雅达利（atari）游戏为背景的。同时，Hassabis又是国际象棋高手，对棋类很擅长，挑战完简单地atari游戏后再挑战公认的极其难的围棋游戏也很自然，于是就有了AlphaGo和李世石的2016之战和nature上的第二篇论文。一战成名之后，深度强化学习技术再次博得人的眼球。当然，DeepMind的成功离不开近几年取得突破进展的深度学习技术。本讲主要讲解DQN，也就是DeepMind发表在《Nature》上的第一篇论文。题目是：《Human-level control through deep reinforcement learning》

平心而论，这篇论文只有两个创新点，算法的大体框架是传统强化学习中的Q-learning。该算法，我们已经在强化学习入门第四讲时间差分方法中讲了。为了讲解方便，在这里，我们重复讲一遍。

Q-learning 方法是异策略时间差分方法。其伪代码如图1.1所示