Human-level control through deep reinforcement learning-2015 DQN论文研读

念一千遍蝴蝶

于 2020-12-27 22:11:03 发布

阅读量750

点赞数

分类专栏：强化学习文章标签：强化学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_38687189/article/details/111825766

版权

本文详细解析2015年Nature论文《Human-level control through deep reinforcement learning》中的DQN算法，该算法成功应用于49款Atari游戏，其中29款超越人类水平。通过深度学习解决高维输入问题，介绍了强化学习基础、DQN算法要点，包括Q函数、优化策略RMSProp，并探讨了经验回放、目标网络更新等关键细节。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Human-level control through deep reinforcement learning-2015 DQN论文研读

DQN是强化学习的代表算法之一，它的原文是发表在Nature上的Human-level control through deep reinforcement learning，本篇博客主要从论文出发，介绍DQN的背景、算法要点、以及实验效果。

文章目录

Human-level control through deep reinforcement learning-2015 DQN论文研读

一、解决问题

本文主要解决了在高维输入下如何利用结合深度神经网络的强化学习打Atari游戏，从而让agent控制目标使得分最高。一个agent可以挑战多种游戏。

传统方法或者过去强化学习研究的局限：要手工提取特征；应用领域局限于完全可观测并且低维度的状态空间。

实验部分将之前文献[1]中的7个Atari游戏扩展到49个游戏中，其中29个效果超过人类水平。

二、强化学习基础

强化学习是与监督学习、非监督学习并列的第三种学习方法。它通过与环境的交互学习到最大化奖励的动作选择策略。

强化学习基本要素

环境状态 $S$ ： $t$ 时刻环境的状态 $S_t$ 是它的环境状态集中某一个状态。
Agent的动作 $A$ ： $t$ 时刻个体采取的动作 $A_t$ 是它的动作集中某一个动作。
环境的奖励 $R$ ： $t$ 时刻Agent在状态 $S_t$ 采取的动作 $A_t$ 对应的奖励 $R_{t+1}$ 会在 $t + 1$ 时刻得到。
Agent策略 $\pi$ ：采取动作的依据，Agent会根据策略来选择动作。分为确定性策略 $A = π (s)$ 与随机性策略 $π(a|s)=P(A_t=a|A_t=s)$
状态价值与动作价值：
状态价值：Agent在策略 $\pi$ 和状态 $s$ 时，采取动作后的价值（value），一般用 $v_π (s)$ 表示：
$v_π (s)=E_π [G_t |S_t=s]=E_π [∑_{k=0}^\inftyγ^k R_{t+k+1}|S_t=s]$
动作价值：Agent在策略 $\pi$ 和状态 $s$ 时，采取动作 $a$ 后的价值，用 $q_π (s,a)$ 表示：
$\begin{aligned} q_π (s,a)&=E_π [G_t |S_t=s,A_t=a]\\ &=E_π [∑_{k=0}^\inftyγ^k R_{t+k+1} |S_t=s,A_t=a] \end{aligned}$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。