深度强化学习（一）： Deep Q Network(DQN)

最新推荐文章于 2024-03-19 09:53:55 发布

VIP文章 LagrangeSK

最新推荐文章于 2024-03-19 09:53:55 发布

阅读量1.8w

点赞数 9

分类专栏：强化学习文章标签：深度强化学习 DQN 强化学习

本文链接：https://blog.csdn.net/LagrangeSK/article/details/80321265

版权

DeepMind2013年的论文《Playing Atari with Deep Reinforcement Learning》指出：从高维感知输入（如视觉、语音）直接学习如何控制 agent 对强化学习（RL）来说是一大挑战。

之前很多RL算法依赖于手工选取的特征和线性函数逼近（对value function（值函数）或 policy进行逼近）。但这些系统都依赖于特征的选取质量。

深度学习（DL），尤其是CNN（卷积神经网络），可以很好的提取图像的高维特征，那么我们很自然的想到是否可以将其应用于强化学习（RL）上？

那么很自然，我们需要关注DL和RL的结合有哪些挑战：

DQN将卷积神经网络（CNN）与Q学习结合起来，通过以下方法，对DL与RL结合存在的问题进行解决：

采用Q learning的目标值函数来构造DL的标签，从而构造DL的loss function;
.采用了记忆回放（experience replay mechanism) 来解决数据关联性问题;
使用一个CNN（MainNet）产生当前Q值，使用另外一个CNN（Target）产生Target Q值。（在2015年DeepMind的论文Human-level Control Through Deep Reinforcement Learning新版DQN中采用）

RL原理此不赘述，Q learning的更新方程如下：

$Q(s,a)+\alpha[r+\gamma \max_{a'}Q(s',a')-Q(s,a)]$

关注