
特别声明:本文是作者在充分知晓著作权细则的情况下,经过个人付出或者翻译他人著作内容,并已注明翻译原文来源的情况下授权给《深度强化学习实验室》CSDN博客发布,内容仅供深度强化学习领域的爱好者分享与交流使用,无任何商业行为,出处解释权归深度强化学习实验室,内容版权和解释权归作者所有,如有任何侵犯他人利益,请联系我们立即删除。
利用神经网络近似值函数的方法表示为:
V ^ ( s , w ) ≈ V π ( s ) q ^ ( s , a , w ) ≈ q π ( s , a ) \hat{V}(s, w) \approx V_{\pi}(s) \\ \hat{q}(s, a, w) \approx q_{\pi}(s, a) V^(s,w)≈Vπ(s)q^(s,a,w)≈qπ(s,a)
那么具体的工作过程是怎样实现的? 以及如何从端到端的过程,本文将讲解Deep Q Network(DQN, 而这正是由DeepMind于2013年和2015年分别提出的两篇论文《Playing Atari with Deep Reinforcement Learning》《Human-level Control through Deep Reinforcement Learning:Nature杂志》
其中DeepMind在第一篇中第一次提出Deep Reinforcement Learning(DRL)这个名称,并且提出DQN算法,实现从视频纯图像输入,完全通过Agent学习来玩Atari游戏的成果。之后DeepMind在Nature上发表了改进版的DQN文章(Human-level …), 这将深度学习与RL结合起来实现从Perception感知到Action动作的端到端的一种全新的学习算法。简单理解就是和人类一样,输入感知信息比如眼睛看到的东西,然后通过大脑(深度神经网络),直接做出对应的行为(输出动作)的学习过程。而后DeepMind提出了AlphaZero(完美的运用了DRL+Monte Calo Tree Search)取得了超过人类的水平!下文将详细介绍DQN:
一、DQN算法
DQN算法是一种将Q_learning通过神经网络近似值函数的一种方法,在Atari 2600 游戏中取得了超越人类水平玩家的成绩,下文通过将逐步深入讲解:
1.1、 Q_Learning算法
Q _ L e a r n i n g Q\_Learning Q_Learning 是Watkins于1989年提出的一种无模型的强化学习技术。它能够比较可用操作的预期效用(对于给定状态),而不需要环境模型。同时它可以处理随机过渡和奖励问题,而无需进行调整。目前已经被证明,对于任何有限的MDP,Q学习最终会找到一个最优策略,即从当前状态开始,所有连续步骤的总回报回报的期望值是最大值可以实现的。 学习开始之前,Q被初始化为一个可能的任意固定值(由程序员选择)。然后在每个时间t, Agent选择一个动作 a t a_{t} at,得到一个奖励 R t R_t Rt,进入一个新的状态 S t + 1 S_{t+1} St+1和Q值更新。其核心是值函数迭代过程,即:
Q ( s t , a t ) ← Q ( s t , a t ) + α ⋅ [ r t + γ max π Q ( s t + 1 , a t ) − Q ( s t , a t ) ] Q(s_{t},a_{t}) \leftarrow Q(s_{t},a_{t})+\alpha \cdot[r_{t}+\gamma \max\limits_{\pi}Q(s_{t+1},a_{t})-Q(s_{t},a_{t})] Q(st,at)←Q(st,at)+α⋅[rt+γπmaxQ(st+1,at)−Q(st,at)]
其中 α \alpha α是学习率, γ \gamma γ为折扣因子,具体的实现过程见下图伪代码:

首先初始化值函数矩阵,开始episode,然后选择一个状态state,同时智能体根据自身贪婪策略,选择action, 经过智能体将动作运用后得到一个奖励 R R R和 S ′ S^{'} S′,计算值函数,继续迭代下一个流程。
1.1.1、 Q _ L e a r n i n g Q\_Learning Q_Learning执行过程中有两个特点:异策略和时间差分
- 异策略:就是指行动策略和评估策略不是同一个策略,行动策略采用了贪心的 ϵ \epsilon ϵ- g r e e d y greedy greedy策略(第5行),而评估策略采用了 max π Q ( s , a ) \max\limits_{\pi}Q(s, a) πmaxQ(s,a)贪心策略(第7行)!
- 时间差分:从值函数迭代公式(2)可以看出时间差分, 其中 T D − t a r g e t = r t + max π ( s t + 1 , a t ) TD-target = r_{t}+\max\limits_{\pi}(s_{t+1}, a_{t})

本文深入解析深度强化学习的基础概念与DQN算法,详细介绍了Q-Learning、经验回放、目标网络等关键技术,通过Atari游戏实例,阐述DQN在高维状态空间的应用,适合深度学习与游戏AI领域的研究者。
最低0.47元/天 解锁文章
1959

被折叠的 条评论
为什么被折叠?



