dqn系列梳理_深度强化学习系列 第一讲 DQN

本文是深度强化学习系列的第一讲,主要介绍了DQN算法,它是基于Q-learning并结合深度学习的一种方法。DQN的创新点包括使用深度卷积神经网络逼近值函数,采用经验回放技术打破数据关联性,以及设置独立的目标网络处理TD偏差。DQN的稳定性和收敛性得益于这些改进,使其在强化学习领域取得了显著成果。
摘要由CSDN通过智能技术生成

前言:深度强化学习系列是以强化学习入门为基础的,所以在学习本系列之前,请先学习强化学习入门第一讲到第五讲。另外,深度强化学习用到了深度学习(deep learning),本讲默认读者已经对深度学习有所了解。

强化学习逐渐引起公众的注意要归功于谷歌DeepMind公司。DeepMind公司最初是由Demis Hassabis, Shane Legg和Mustafa Suleyman于2010年创立的。创始人Hassabis有三重身份:游戏开发者,神经科学家以及人工智能创业者。Hassabis的游戏开发者的身份使人不难理解DeepMind在nature上发表的第一篇论文是以雅达利(atari)游戏为背景的。同时,Hassabis又是国际象棋高手,对棋类很擅长,挑战完简单地atari游戏后再挑战公认的极其难的围棋游戏也很自然,于是就有了AlphaGo和李世石的2016之战和nature上的第二篇论文。一战成名之后,深度强化学习技术再次博得人的眼球。当然,DeepMind的成功离不开近几年取得突破进展的深度学习技术。本讲主要讲解DQN,也就是DeepMind发表在《Nature》上的第一篇论文。题目是:《Human-level control through deep reinforcement learning》

平心而论,这篇论文只有两个创新点,算法的大体框架是传统强化学习中的Q-learning。该算法,我们已经在强化学习入门第四讲时间差分方法中讲了。为了讲解方便,在这里,我们重复讲一遍。

Q-learning 方法是异策略时间差分方法。其伪代码如图1.1所示

图1.1 Q-learning方法伪代码

掌握Q-learning方法一定要弄清楚两个概念,异策略,时间差分。以及这另个概念在Q-learning算法中如何体现的。下面我给大家一一道来。

所谓异策略,是指行动策略(产生数据的策略)和要评估的策略不是一个策略。在图1.1 Q-learning 伪代码中,行动策略(产生数据的策略)是第5行的

策略,而要评估和改进的策略是第6行的贪婪策略(每个状态取值函数最大的那个动作)。

所谓时间差分方法,是指利用时间差分目标来更新当前行为值函数。在图1.1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值