深度强化学习系列 第一讲 DQN

前言:深度强化学习系列是以强化学习入门为基础的,所以在学习本系列之前,请先学习强化学习入门第一讲到第五讲。另外,深度强化学习用到了深度学习(deep learning),本讲默认读者已经对深度学习有所了解。

强化学习逐渐引起公众的注意要归功于谷歌DeepMind公司。DeepMind公司最初是由Demis Hassabis, Shane Legg和Mustafa Suleyman于2010年创立的。创始人Hassabis有三重身份:游戏开发者,神经科学家以及人工智能创业者。Hassabis的游戏开发者的身份使人不难理解DeepMind在nature上发表的第一篇论文是以雅达利(atari)游戏为背景的。同时,Hassabis又是国际象棋高手,对棋类很擅长,挑战完简单地atari游戏后再挑战公认的极其难的围棋游戏也很自然,于是就有了AlphaGo和李世石的2016之战和nature上的第二篇论文。一战成名之后,深度强化学习技术再次博得人的眼球。当然,DeepMind的成功离不开近几年取得突破进展的深度学习技术。本讲主要讲解DQN,也就是DeepMind发表在《Nature》上的第一篇论文。题目是:《Human-level control through deep reinforcement learning》

平心而论,这篇论文只有两个创新点,算法的大体框架是传统强化学习中的Q-learning。该算法,我们已经在强化学习入门第四讲时间差分方法中讲了。为了讲解方便,在这里,我们重复讲一遍。

Q-learning 方法是异策略时间差分方法。其伪代码如图1.1所示

图1.1 Q-learning方法伪代码

掌握Q-learning方法一定要弄清楚两个概念,异策略,时间差分。以及这另个概念在Q-learning算法中如何体现的。下面我给大家一一道来。

所谓异策略,是指行动策略(产生数据的策略)和要评估的策略不是一个策略。在图1.1 Q-learning 伪代码中,行动策略(产生数据的策略)是第5行的\varepsilon -greedy策略,而要评估和改进的策略是第6行的贪婪策略(每个状态取值函数最大的那个动作)。

所谓时间差分方法,是指利用时间差分目标来更新当前行为值函数。在图1.1Q-learning伪代码中,时间差分目标为r_t+\gamma\max_aQ\left(s_{t+1},a\right)

Q-learning算法是1989年Watkins提出来的,2015年nature论文所提出的DQN就是在Q-learning的基础上修改得到的。

DQN对Q-learning的修改主要体现在以下三个方面:

DQN利用深度卷积神经网络逼近值函数

DQN利用了经验回放对强化学习的学习过程进行训练

DQN独立设置了目标网络来单独处理时间差分算法中的TD偏差。

下面,我们一一介绍:

(1)DQN利用卷积神经网络逼近行为值函数

  • 2
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值