【强化学习实战-05】Dueling DQN保姆级教程(1)：以Cart Pole为例

刘兴禄

已于 2022-03-07 18:01:50 修改

阅读量757

点赞数 1

分类专栏： RL+OR 机器学习+强化学习-笔记文章标签：深度学习计算机视觉神经网络

于 2022-02-28 03:03:02 首次发布

本文链接：https://blog.csdn.net/HsinglukLiu/article/details/123166866

版权

【强化学习实战-05】Dueling DQN保姆级教程：以Cart Pole为例Dueling DQNAdvantage function (优势函数)Dueling DQN参考文献：Dueling Network Architectures for Deep Reinforcement Learning https://arxiv.org/abs/1511.06581Wang Z, Schaul T, Hessel M, et al. Dueling network architectures

摘要由CSDN通过智能技术生成

Dueling DQN

参考文献：

Dueling Network Architectures for Deep Reinforcement Learning https://arxiv.org/abs/1511.06581

Wang Z, Schaul T, Hessel M, et al. Dueling network architectures for deep reinforcement learning[C]//International conference on machine learning. PMLR, 2016: 1995-2003.

本笔记整理自 (作者: Shusen Wang):
https://www.bilibili.com/video/BV1rv41167yx?from=search&seid=18272266068137655483&spm_id_from=333.337.0.0

Note

Dueling Network不仅可以用在DQN，还可以用在其他地方。

Dueling Network是一种更好的网络结构。跟DQN相比，他只是在神经网络的网络结构上做了改进。

Dueling network是在2016年发表在PMLR上的论文Dueling Network Architectures for Deep Reinforcement Learning提出的，其作者为：Google 的DeepMind团队。作者包括：Ziyu Wang、Tom Schaul、Matteo Hessel、Hado van Hasselt、Marc Lanctot、Nando de Freitas。

这篇论文中提出了一个重要的概念：Advantage function (优势函数)。下面我们来详细介绍Dueling Network。

Advantage function (优势函数)

在介绍Advantage function (优势函数)之前，首先我们需要再次回顾相关概念。

在这里插入图片描述

折扣回报(Discounted return): 也就是从 $t$ 时刻到结束的累计总回报。 $\begin{aligned} U_t &= R_t + \gamma \cdot R_{t+1} + \gamma^2 \cdot R_{t+2} + \gamma^3 \cdot R_{t+3} + \cdots \\ &= \sum_{k=1}^{+\infty}{\gamma^k R_{t+k}} \end{aligned}$

注意，大写字母都是随机变量。每一步的reward，也就是 $R_t, R_{t+1}, R_{t+2}, \cdots$ ，全部是随机变量，因为我们并不知道真实、准确的reward function，只能是自己凭借经验去设置一个自己觉得合理的reward function。或者说，等待环境返回一个reward的观测值： $r_t$ 。

动作-价值函数（Action-value function）： $Q_{\pi}(s_t, a_t)$ ，表示在策略 $\pi$ 下，状态为 $s_t$ 时采取动作 $a_t$ ，获得的总折扣回报 $U_t$ 的期望。也就是 $Q_{\pi}(s_t, a_t) = \mathbb{E}[U_t | S_t = s_t, A_t = a_t]$

另外，在Policy based reinforcement learning中，我们是学习状态价值函数 $V_{\pi}(s)$ ，且 $V_{\pi}(s)$ 等于
$\begin{aligned} V_{\pi}(s_t) &= \mathbb{E}_{A}[Q_{\pi}(s_t, A)] \\ &=\sum_{a} \pi(a_t|s_t) \cdot Q_{\pi}(s_t, a_t) \approx \sum_{a} \pi(a_t|s_t; \theta) \cdot q(s_t, a_t; \mathbf{w}) \end{aligned}$
最后，我们会同时得到:

策略网络(policy network),也就是 Actor $\pi(a|s; \theta)$ ，和
价值网络(value network),也就是Critic $\mathbf{w})$ 。注意这个价值网络 $\mathbf{w})$ 是不依赖于策略 $\pi$ 的，因为它就是一个唯一的神经网络而已， $\pi$ 变化，神经网络 $\mathbf{w})$ 不会变化。

虽然最后会同时得到策略网络(policy network) $\pi(a|s; \theta)$ 和价值网络(value network) $\mathbf{w})$ ，但是最后我们只是用策略网络(policy network) $\pi(a|s; \theta)$ 去做动作(相当于去求解问题)。

因此，我们引出状态-价值函数 $V_{\pi}(s_t)$

状态-价值函数（State-value function）： $V_{\pi}(s_t)$ ，表示在策略 $\pi$ 下，状态为 $s_t$ 时会获得的总折扣回报 $U_t$ 的期望。也就是
$\begin{aligned} V_{\pi}(s_t) &= \mathbb{E}_{A}[Q_{\pi}(s_t, A)] \\ &= \mathbb{E}_{a \sim \pi(s_t)}[Q_{\pi}(s_t, a)] \\ &=\sum_{a} \pi(a_t|s_t) \cdot Q_{\pi}(s_t, a_t) \end{aligned}$

基于价值函数，我们因此最优价值函数的概念。

在这里插入图片描述

最优动作-价值函数（Optimal action-value function）： $Q^{*}(s, a)$ ，表示在所有可能的策略 $\pi$ 下，状态为 $s_t$ 时采取动作 $a_t$ ，获得的总折扣回报 $U_t$ 的期望的最大值。也就是 $Q^{*}(s_t, a_t) = \underset{\pi}{\max \,\,}{Q_{\pi}(s, a)}$
最优动作-价值函数（Optimal action-value function）可以直接指导Agent做动作。

最优状态-价值函数（Optimal state-value function）： $V^{*}(s)$ ，表示在所有可能的策略 $\pi$ 下，状态为 $s_t$ 时会获得的总折扣回报 $U_t$ 的期望的最大值。也就是 $V^{*}(s) = \underset{\pi}{\max \,\,}{V_{\pi}(s)}$

最低0.47元/天解锁文章

刘兴禄

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【强化学习实战-05】Dueling DQN保姆级教程(1)：以Cart Pole为例

【强化学习实战-05】Dueling DQN保姆级教程：以Cart Pole为例Dueling DQNAdvantage function (优势函数)Dueling DQN参考文献：Dueling Network Architectures for Deep Reinforcement Learning https://arxiv.org/abs/1511.06581Wang Z, Schaul T, Hessel M, et al. Dueling network architectures
复制链接

扫一扫