论文笔记之Double Q-learning

最新推荐文章于 2022-09-01 20:46:53 发布

Ton10

最新推荐文章于 2022-09-01 20:46:53 发布

阅读量2.2k

点赞数 7

文章标签：强化学习深度学习机器学习算法概率论

本文链接：https://blog.csdn.net/MR_kdcon/article/details/113321133

版权

经典的Q-learning算法因为目标策略的取max步骤使得Q估计值存在过估计现象。Q(s,a)估计的不准确会导致Agent表现力很差，比如原本2个真值 $Q(s,a_0)>Q(s,a_1)$ ，但过估计可能会使得收敛时他们的估计值 $Q(s,a_0)<Q(s,a_1)$ 。那么根据贪心策略，会出现次优策略。
为了解决过估计这个糟糕的问题，2010年Hasselt在NIPS上发表了Double Q-learning这篇论文。旨在通过引入Double Q-learning算法，以欠估计(underestimation)来替代Q-learning的过估计(overestimation)问题。或者说用低于真值的负估计来解决Q-learning高于真值的正估计问题。

这篇文章让我明白了之前犯得一个错误：误认为DQN中的过估计是因为NN本身的误差引起的（当然也有这个因素），但其实过估计问题主要是因为Q-learning算法本身就存在的，DQN由于基于Q-learning，所以会出现过估计。

Double Q-learning的价值：

作为后续DDQN的基础，来解决连续状态，离散动作的RL问题过估计问题。
作为Double Q-learning的基础，来解决离散状态，离散动作RL问题过估计问题。
作为TD3算法的基础，用以解决DDPG算法中DQN部分过估计问题，来解连续动作下的RL问题。

Double Q-learning论文主要内容：

分析了Q-learning算法的overestimation。
引出了Double Q-learning去解决过估计问题，但是这个算法并不是准确估计的，而是本身会造成underestimation。

Double Q-learning

1 Introduction
2 Estimating the Maximum Expected Value
- 2.1 The single Estimator
- 2.2 The Double Estimator
3 Double Q-learning
- 3.1 Convergence in the Limit
4 Experiments
- 4.1 Roulette
- 4.2 Grid World
5 Discussion
6 Conclusion

Abstract
作者Hasselt指出：

Q-learning因为存在最大化动作值函数而产生过估计问题。
提出了Double Q-learning来解决Q-learning这个缺陷。
Double Q-learning本地也有缺陷：会产生欠估计(underestimation)问题。
作者通过2个实验来凸显出新Q算法和旧Q算法在估计上的表现：即一个欠估计，一个过估计。

1 Introduction

Q-learning是TD算法，是一种结合了DP和MC各自特点的算法。其动作值函数更新公式为：
$Q_{t+1}(s_t,a_t) = Q_t(s_t,a_t) +\alpha_t(s_t,a_t)(r_t+ \\\gamma \mathop{\max_a}Q_(s_{t+1},a)-Q_t(s_t,a_t)) \tag{1}$
式子中， $\alpha\in[0,1]$ 是一个根据状态数而衰减的学习率，类似于 $\epsilon$ ，我们一般都设为固定值。由于TD目标值也是个估计值，所以 $\alpha$ 的值不应太大。
最优值函数 $Q^*(s,a)$ 根据贝尔曼公式可得：
$\forall s,a:Q^*(s,a) =\mathop{\sum_{s'}}P_{sa}^{s'}(R_{sa}^{s'}+\gamma \mathop{\max_a}Q^*(s',a)) \\=r_t+\gamma \mathop{\sum_{s'}P_{sa}^{s'}}\mathop{\max_a}Q^*(s',a) \\= \mathbb{E}_{s' \sim\rho}(R_{sa}^{s'}+\gamma \mathop{\max_a}Q^*(s',a)) \tag{2}$

从期望中看出，Q-learning由于没有状态转移概率，所以只能通过采样的方式去逼近 $\mathbb{E}$ ，根据大数定律，无限次采样会达到均值。这里也看出model-free不同于model-based，其实通过n次的采样去做RL任务的。TD算法收敛的过程其实就是在构建一个MDP，通过采样不断去近似状态转移概率。
$\gamma$ 两个作用：①相对未来，更看重眼前的利益，符合人脑的思维方式。②防止RL中出现的周期往复行为导致G太大，比如MC中，如果某次出现G太大，那么会使得算法的方差进一步拉大，增加了收敛的难度。
作者还提出了一些可以增加Q-learning收敛速度的论文，比如Delayed Q-learning，Phased Q-learning，Fitted Q-learning等

Contributions：
作者提出一种双估计器，相比于基于单估计器的Q-learning而言，他不会产生过估计，但是会有欠估计。基于双估计思想与Q-learning，作者提出了Double Q-learning这种新算法。
接下去论文的组织顺序：

第2节：使用单、双估计器来近似一系列R.V.的期望的最大值。
第3节：提出Double Q-learning算法，并证明其收敛性。
第4节：根据实验来得出Double Q-learning的特性以及和Q-learning的比对。
第5、6节：总结与展望。

2 Estimating the Maximum Expected Value

全文的研究以用2种估计器(单、双估计)来近似估计一系列R.V.的最大期望值：
M个随机变量 $X={X_1,X_2...,X_M}$ 。
研究对象为：
$\mathop{\max_i}\mathbb{E}(X_i) \tag{3}$
单估计器的做法是通过最大化一系列R.V.估计值的期望值来估计这个研究对象，即 $\mathop{\max_i}\mathbb{E}\{X_i\}=\mathop{\max_i}\mathbb{E}\{\mu_i\}\approx \mathop{\max_i}\mu_i(S)$ 这种做法使得其实不是无偏的，会产生正偏差的。这点会在2.1节得到证明。
双估计器的做法是通过解耦R.V.估计值和R.V.估计器。这种做法也不是对目标的无偏估计，会产生负偏差，但是其避免了过估计，即正偏差。
Note：

随机变量 $X_i$ 的估计器用 $\mu_i$ 表示。
$\mu_i$ 是 $X_i$ 的无偏估计，i.g. $\mathbb{E}\{X_i\}=\mathbb{E}\{\mu_i\}$
为了更好地理解这一节内容，你可以把 $X_i$ 当做Q-learning中的 $Q(S,a_i)$ 真值，把 $\mu_i$ 当做 $Q(S,a_i)$ 的估计值。

为了下面的分析，需要提前定义一些符号：
设 $S=\bigcup_{i=1}^MS_i$ ，其中子集 $S_i$ 是对于 $X_i$ 采集的样本集合。根据概率论的基础知识， $S_i$ 中的样本之间服从iid条件(独立同分布)。故：
$\mathbb{E}\{X_i\}=\mathbb{E}\{\mu_i\}\approx\mu_i(S) \overset{def}{=}\frac{1}{|S_i|}\sum_{s\in S_i}s$
$u_i(S)$ 是 $\mathbb{E}\{X_i\}$ 的无偏估计，我们都知道误差取决预bias和var，因此在这种情况下想要降低error，就得通过继续采集样本来降低var。

这一节的末尾作者提了下概率论中的基础概念：概率密度PDF以及累积分布函数CDF，两者是求导积分的关系。
定义：
$F_i(x)=\int_{- \infty}^x f_i(x)\mathrm{d}x \\max_iE\{X_i\} = max_i\int_{-\infty}^{\infty}xf_i(x) \mathrm{d}x$

2.1 The single Estimator

Q-learning就是使用单估计器来估计Q真值的。
接下来作者就开始分析单估计器是如何估计式(3)的。
其实正如上面分析那样，单估计的原理就是借鉴矩估计法：
$\mathop{\max_i}\mathbb{E}\{X_i\}=\mathop{\max_i}\mathbb{E}\{\mu_i\}\approx \mathop{\max_i}\mu_i(S) \tag{4}$
但是呢，虽然矩估计 $\mathbb{E}\{X_i\}=\mathbb{E}\{\mu_i\}\approx\mu_i(S)$ 是无偏估计等式，但是式(4)对目标的估计却不是无偏的，乍一看无非从矩估计法外面加个 $m a x$ 而已，很合理的逻辑，但已不是无偏估计了，而是有偏估计，这也就是单估计器因 $m a x$ 产生过估计的原因。下面会证明估计会产生正向偏差。

证明过程：

设 $\mu_i$ 的PDF为 $f_i^\mu$ 。则 $\mathop{\max_i}u_i$ 的PDF为 $f^\mu_{max}$ ，CDF为 $F^\mu_{max}$
故 $F^\mu_{max}(x)=\mathbf{P}(max_i\mu_i\leq x)=\prod^M_{i=1}\mathbf{P}(\mu_i\leq x) \overset{def}{=}\prod^M_{i=1}F^\mu_i(x)$ 。
继续，
$max_i\mu_i(S)$ 是 $\mathbb{E}\{max_i\mu_i\}=\int^\infty_{-\infty}xf^\mu_{max}(x)\mathrm{d}x$ 的无偏估计(这个地方作者直接给的结论，至于为啥这是无偏估计，我不知道咋证明，有知道的麻烦告知，这里就当个结论来记吧) 。
单估计器过估计的关键：
$\mathbb{E}\{\mathop{\max_i}\mu_j\}=\int^\infty_{-\infty}x\frac{d}{\mathrm{d}x}\prod^M_{i=1}F_i^\mu(x)\mathrm{d}x \\=\sum^M_j\int^\infty_{-\infty}xf^\mu_j(s)\prod^M_{i\neq j}F^\mu_i(x)\mathrm{d}x \tag{5}$
Note：
从这个式(5)可以看出， $\sum^M_{i\neq j}F_i^\mu$ 是单调递增的，且 $x$ 在积分内，因此这个整体的值有可能会很大，也暗示了过估计的可能。

根据这篇论文的补充材料(NIPS官网可寻)中的Lemma1所示：
在这里插入图片描述
i.g.
$\mathbb{E}\{\max_i\mu_i\}\ge \max_i\mathbb{E}\{\mu_i\}$
单估计器通过采样，即 $\frac{1}{|S_i|}\sum_{s\in S_i}s$ 来估计我们的目标 $\max_i\mathbb{E}\{X_i\}$ 。但是根据上述结论，这种采样方式是 $\mathbb{E}\{\max_i\mu_i\}$ 的无偏估计，而根据Lemma1可知，单估计器对 $\max_i\mathbb{E}\{X_i\}$ 的估计是有偏差的，且是正偏差，即过估计。因此，我们可以得出结论：单估计器对max的估计是有偏差的，且是正偏差，根本原因在于：
$\mathbb{E}\{\max_i\mu_i\}\ge \max_i\mathbb{E}\{\mu_i\}$

2.2 The Double Estimator

接下来作者会用一种新的估计器去估计 $max_i\mathbb{E}\{X_i\}$ 。这个新的估计器叫Double estimator。他需要用到2个估计器 $\mu^A=\{\mu_1^A,...,\mu_M^A\}$ 以及 $\mu^B=\{\mu_1^B,...,\mu_M^B\}$ 。另外，类似于单估计器，定义：

$S=S^A\cup S^B$ ，且 $S^A\cap S^B=\varnothing$ 。
$\mu^A_i(S)=\frac{1}{|S_i^A|}\sum_{s\in S_i^A}s,\mu^B_i(S)=\frac{1}{|S_i^B|}\sum_{s\in S_i^B}s$ ，各自样本都要服从iid条件。
$\mu^A_i,\mu^B_i$ 仍是 $X_i$ 的无偏估计，且两者相互独立，这个独立体现在各自采样时自己采自己的。双方估计器互相独立的好处在于有利于解耦，当在第j号估计器通过采样出现过估计时，只要在B中对应的第j号估计器通过采样得到的没有出现过估计，那么最后估计就不会出现正偏差；当B中第j号估计器会出现过估计时，只要A不要选出第j号，那么最后估计就不会出现正偏差。从此可见双估计器利用的就是双方采样的差异性大，随机性强，各自单估计的话出现结果的差异大，这就是上面第1条的原因。我们不妨从极端考虑，如果双方采样样本一模一样，那么解耦就没有意义了！
$Max^A(S)\overset{def}{=}\{j|\mu^A_j(S)=max_i\mu_i^A(S)\}$ 是一个保存最大 $\mu^A(S)$ 对应估计器的序号。

显然对于 $\mathbb{E}\{\mu_j^B\}=\mathbb{E}\{X_j\}$ 的 $j\in[1,M]$ ，意味着包括 $j\in Max^A(S)$ 。

定义 $a^*$ 为最大化 $\mu^A(S)$ 的那个估计器 $\mu^A_{a^*}$ ,
i.g. $\mu^A_{a^*}(S)\overset{def}{=}max_i\mu^A_i(S)$ ，显然 $a^*\in Max^A(S)$ 。如果这个集合例有多个估计器，那就随机抽选一个估计器出来。

接下来就可以引入Double估计器的核心思想：
用 $\mu^B_{a^*}(S)$ 这个采样值来作为 $max_i\mathbb{E}\{\mu_i^B\}$ 的估计值。通俗一点来讲就是，用A中的最大估计器对应的序号去寻找B中该序号对应的估计器，这个估计器就是我们需要的那个。
数学表达式：
$\max_i\mathbb{E}\{X_i\} = \max_i\mathbb{E}\{\mu_i^B\}\approx\mu^B_{a^*}(S) \tag{6}$
Note：

虽然采用解耦2个估计器来估计目标，但其实本质还是利用了矩估计法。因此随着采样增多，估计的方差会不断减小，当采样无限次时， $\mu_i^A(S)=\mu_i^B(S)=\mathbb{E}\{X_i\}$ ,且式(6)最终将会收敛到一个正确的值，关于收敛性的证明后面将会以证明Double Q-learning收敛性来展现。

分析：
如果PDF是连续的话（离散同理）：
定义 $\mathbf{P}(j=a^*)=\int_{-\infty}^\infty\mathbf{P}(\mu_j^A=x)\prod^M_{i\neq j}\mathbf{P}(\mu_i^A<x)\mathrm{d}x \\\overset{def}{=}\int_{-\infty}^\infty f_j^A(x)\prod^M_{i\neq j}F_i^A(x)\mathrm{d}x$ 其中， $f_i^A,F_i^A$ 是 $\mu_i^A$ 的PDF和CDF。这里 $\mathbf{P}(\mu_j^A=x)$ 本来应该是为0的，这里参考了最大似然估计里面的处理方式，将其定义为概率密度 $f^A(x)$ 。
又因为 $\mu^B_{a^*}(S)$ 是 $\mathbb{E}\{\mu^B_{a^*}\}$ 的无偏估计，故：
$\mathbb{E}\{\mu^B_{a^*}\} = \sum^M_j\mathbf{P}(j=a^*)\mathbb{E}\{\mu_j^B\} \\=\sum^M_j\mathbb{E}\{\mu_j^B\} \int_{-\infty}^\infty f_j^A(x)\prod^M_{i\neq j}F_i^A(x)\mathrm{d}x \tag{7}$
Note：

$Max^A(S)$ 中可能存在多个 $a^*$ 。
$\mathbf{P}之和为1$ ，因此 $\sum^M_j\mathbf{P}(j=a^*)\mathbb{E}\{\mu_j^B\}$ 可以看成一个期望 $\mathbb{E}$ 。而期望是均值，一定小于其R.V.的最大值，即： $\mathbb{E}\{\mu_{a^*}^B\}\leq \max_i\mathbb{E}\{\mu_i^B\}=\max_i \mathbb{E}\{X_i\}$ 这个式子告诉我们：你通过采用获得的 $\mathbb{E}\{\mu_{a^*}^B\}$ 去估计目标的话，会低于目标值，即欠估计，或者说产生负偏差。

上述的2不能算证明，接下来作者给出了类似于单估计器中的证明方式，正文的引理1以及其证明如下：
在这里插入图片描述
证明中需要用到条件期望与全期望公式，过程与单估计器那个Lemma几乎一样，只不过多一个估计器 $\mu^B$ 。

3 Double Q-learning

这一节是将第2节的单双估计器用于实战—Q-learning算法中，用单估计器来解释Q-learning算法过估计的问题。然后引出基于双估计器的Double Q-learning算法。
在Q-learning算法中，对 $\forall(s,a),Q(s,a)$ 都有其真值，基于单估计器思想，我们通过不断采样trans，用 $Q (s, a)$ 估计器（用Q表存储或者神将网络）使用TD算法来近似这个真值。其通过软更新的方式其实就是单估计器中借鉴矩估计法的思想，会对 $m a x$ 估计产生正偏差。具体的，Q-learning的更新公式如式(1)所示，TD算法是MC和DP的结合，TD算法的更新本质就是通过矩估计法得出Q值来近似Q真值。将 $max_aQ_t(s_{t+1},a)$ 看成是 $Q (s, a)$ 的样本值，即：
$Q_{真值}(s,a)\Leftarrow \mathbb{E}\{max_aQ_t(s_{t+1},a)\}$
但其实Q-learning算法更新的思想是用最大化下个状态的Q值来作为当前状态的Q值，即：
$Q_{真值}(s,a)\leq \max_a \mathbb{E}\{Q_t(s_{t+1},a)\}$
Note:
这里原文并没有详细说明Q真值是这样的形式，我个人理解是这样的：Q-learning使用TD方法去更新 $Q$ 值，是一种基于贝尔曼等式的更新方法（严格来说，时序差分是结合了MC和DP的一种综合性方法:）：
$Q^\pi(s,a)=r+\gamma\mathbb{E}_{s',a'}[Q^\pi(s',a')]\\ a'\sim\pi(s'),s'\sim\rho^\pi(s')$ Note:
这种双采样的期望写法是因为采样对象都是基于全局空间，根据贝尔曼等式，索性直接写成采样对 $< s^{'}, a^{'} >$ 的形式。这种形式简洁易懂，更利于代码开发，TD3论文中就引用这种写法。当然也可以像DDPG论文写的那样：在这里插入图片描述两种写法都是可以的。

理想情况下，TD算法就这样的，但是由于必须通过采用来实现，因此只能说近似于上式，这里需要注意的是，Q-learning只是TD算法中的一种，也就是上式中的 $\pi(s')$ 为贪婪策略。因为要说明Q-learning的缺陷，因此必须拿出标准的式子来做比较，简化上式：
$Q_{真值}(s,a)\Leftarrow \mathbb{E}_{a\sim\pi}\{Q_t(s_{t+1},a)\}$
为了便于 $m a x$ 之间的比较，进一步给出如下关系：
$\mathbb{E}_{a\sim\pi,s'\sim\rho^\pi(s')}\{Q_t(s_{t+1},a)\}\leq\max_a \mathbb{E}_{s'\sim\rho^\pi(s')}\{Q_t(s_{t+1},a)\}$

(为了简化，接下来 $\mathbb{E}$ 的下标 $s'\sim\rho^\pi(s')$ 将省略)
根据2.1节，将 $\mu_i$ 看作 $Q(s_{t+1},a_i)$ ，则易知:
$\mathbb{E}\{max_aQ_t(s_{t+1},a)\}\ge \max_a \mathbb{E}\{Q_t(s_{t+1},a)\}$ 也就是说，我们辛苦采样而来的trans，然后去估计的 $Q (s, a)$ 会有正偏差，即过估计。

我们从2.2节知道Double估计器可以解决过估计问题，因此将双估计器用在Q-learning上就得到了负偏差的Double Q-learning。
Double Q-learning:
基于双估计器，要设置 $Q^A$ 和 $Q^B$ 两个Q函数。令 $a^*=\argmax_aQ(s',a)$ 。这里我们不用 $Q^A(s',a^*)=max_aQ^A(s',a)$ 去更新 $Q^A(s,a)$ ，而是用 $Q^B(s',a^*)$ 去更新 $Q^A(s,a)$ 。
Note:

同理我们用 $Q^A(s',b^*)$ 去更 $Q^B(s,a)$ 。
另外，两个估计器是互相独立的，也就是采样都是各自采各自的。

Double Q-learning的缺陷：欠估计
$\mathbb{E}\{Q^B(s',a^*)\}\leq\max_a\mathbb{E}\{Q^A(s',a^*)\}$

3.1 Convergence in the Limit

Note：

文章正文有Lemma1,Lemma2,Theorem1；补充材料有Lemma1；参考论文中有Theorem2,Theorem3。
整个证明过程会出现 $F_t(s_t,a_t),F_t^Q(s_t,a_t),F_t^A(s_t,a_t),F^B_t(s_t,a_t),F_t^{BA}(s_t,a_t)$ 这几个 $\mathbf{F}$ 。

Double Q-learning算法：
在这里插入图片描述
本节是作者利用Lemma2对Theorem1证明，从而证明Double Q-learning算法的收敛性。
引理2如下：

需要注意的是本论文中 $\lVert \cdot\rVert$ 代表最大范数(无穷范数)
定理如下：

证明过程图如下：
在这里插入图片描述
需要使用到Q-learning收敛性证明以及1个定理，参考文献如下：

Note：

引用Q-learning这篇文章主要需要注意以下的写法，这里 $V\ne V^\pi$ ：
为了便于证明Double Q-learning，我把Convergence这篇文章里的Theorem1、Theorem2添加进来，重命名为Theorem2、Theorem3。
Theorem3中的 $c$ 表示实时奖励 $r$ 。

在这里插入图片描述

Double Q-learning证明如下：
。。。。。。

第①步：Q-learning收敛性证明
我们要用Theorem2来证明Theorem3，即Q-learning的 $Q(s_t,a_t)$ 能收敛至 $Q^*(s_t,a_t)$ 。
显然Theorem3可以轻松满足Theorem2，对于Theorem2(4)，只需要在Theorem3(4)的基础上满足F可以是Q的线性函数即可推出(比较松的条件)。因此关键在于如何证明Theorem2的条件(3)：
首先定义： $\Delta_t(s,a)=Q_t(s,a)-Q^*(s,a) \\F_t(s,a)=r+\gamma\max_aQ_t(s',a)-Q^*(s,a) \\\beta_t(s,a)=\alpha_t(s,a)$
Theorem3中的 $V$ 函数根据Q-learning这篇论文中的Q-learning更新公式变体，可知其实就是 $m a x Q$ 函数，因此：
$Q_{t+1}(s_t,a_t)=(1-\alpha_t(s_t,a_t))Q_t(s_t,a_t)+\alpha_t(s_t,a_t)[r+\gamma V_t(s_{t+1})] \\Q^*_{t+1}(s_t,a_t)=Q^*_t(s_t,a_t)=Q^*_t(s_t,a_t)+\alpha_t(s_t,a_t)[Q^*(s_t,a_t)-Q^*(s_t,a_t)] \\第二个其实就是不更新了，毕竟达到了最优 \\两者相减： \\\Delta_{t+1}=Q_{t+1}(s_t,a_t)-Q^*_{t+1}(s_t,a_t) \\=(1-\alpha_t(s_t,a_t))\Delta_t+\alpha_t(s_t,a_t)[r+\gamma V(s_{t+1}-Q^*(s_t,a_t))] \\=(1-\alpha_t(s_t,a_t))\Delta_t+\alpha_t(s_t,a_t)F_t(s,a)$
关键在于Theorem2的条件(3)证明：

因此，在 $P_n$ 环境下（MDP），Theorem3符合Theorem2的4个条件，故 $\Delta_{t+1}=Q_{t+1}(s_t,a_t)-Q^*_{t+1}(s_t,a_t)\to0$ ，i.g.Q-learning算法可以收敛。

接下来②-⑥步就是用Lemma2来证明Theorem1：
通过 $\epsilon-greedy$ 这样的探索策略去遍历各个状态动作对，理想状态是无限次，但是MDP必须是有限的，即有限的状态、动作空间。
在满足Theorem1的6个条件下定义：
$\mathbf{P}_t=\{Q_0^A,A^B_0,s_0,a_0,\alpha_0,r_1,s_1,...,s_t,a_t\} \\X=S\times A \\\Delta_t=Q_t^A-Q^* \\\zeta=\alpha \\F_t(s_t,a_t)=r_t+\gamma Q_t^B(s_{t+1},a^*)-Q_t^*(s_t,a_t),a^*=\argmax_aQ^A(s_{t+1},a)$
和第①步中证明一样，Lemma2的条件(1)(2)(4)很容易满足，条件(4)只需要Theorem1的(6)即可推出。关键在于条件(3)的推导，在接下来的证明过程中国，这个条件(3)需要被证明2次。

第②步：证明 $\Delta_t^{BA}\to 0$
重新定义 $F_t(s_t,a_t)=F_t^Q(s_t,a_t)+\gamma(Q_t^B(s_{t+1},a^*)-Q_t^A(s_{t+1},a^*)) \\F_t^Q=r_t+\gamma Q_t^A(s_{t+1},a^*)-Q_t^*(s_t,a_t) \\其中c_t=\gamma (Q^B_t(s_{t+1},a^*)-Q^A_t(s_{t+1},a^*)) \\\Delta_t^{BA}=Q_t^B-Q_t^A$
$\Delta_t^{BA}$ 的更新取决于更新 $Q^A$ 还是 $Q^B$ ：
当更新 $Q^A$ 时： $Q_{t+1}^B(s_t,a_t)=Q^B_t(s_t,a_t)\\ Q^A_{t+1}(s_t,a_t)=Q^A_t(s_t,a_t)+\alpha_t(s_t,a_t)(r+\gamma Q^B(s_{t+1},a^*)-Q^A_t(s_t,a_t)) \\两式相减：\Delta_{t+1}^{BA}(s_t,a_t)=\Delta_t^{BA}(s_t,a_t)-\alpha_t(s_t,a_t)F_t^A(s_t,a_t) \\其中F_t^A(s_t,a_t)=r+\gamma Q^B(s_{t+1},a^*)-Q^A_t(s_t,a_t)$
同理，当更新 $Q^B$ 时：
$\Delta_{t+1}^{BA}(s_t,a_t)=\Delta_t^{BA}(s_t,a_t)+\alpha_t(s_t,a_t)F_t^B(s_t,a_t) \\其中F_t^B(s_t.a_t)=r+\gamma Q^A(s_{t+1},a^*)-Q^B_t(s_t,a_t)$
两个 $\Delta相加除以2$ ，并定义 $\zeta_t^{BA}=\frac{1}{2}\alpha_t$
$则\Delta_{t+1}^{BA}(s_t,a_t)=(1-\zeta_t)\Delta_t^{BA}(s_t,a_t)+\zeta_tF_t^{BA}(s_t,a_t) \\其中F_t^{BA}(s_t,a_t)=\gamma(Q^A_t(s_{t+1},b^*)-Q^B_t(s_{t+1},a^*))$ 这个式子正好满足Lemma2，因此我们的目标就是让 $\Delta_t^{BA}\to0$ 。
定义： $\mathbb{E}\{F_t^{BA}(s_t,a_t)|\mathbf{P}_t\}=\gamma E\{Q^A_t(s_{t+1},a^*)-Q^B_t(s_{t+1},a^*)|\mathbf{P}_t\}$

因此： $\lVert\mathbb{E}\{F_t^{BA}|\mathbf{P}_t\}\rVert \leq \gamma\lVert\Delta_t^{BA}\rVert$ 也必定成立。根据Lemma2的条件(1)(2)(3)(4)可以证得： $\Delta_t^{BA}\to0$ （这里可将 $c_t$ 看作0）
第③步：证明 $c_t\to 0$
由第②步的 $\Delta_t^{BA}\to0$ ，可以得出 $c_t$ 最终会收敛至0
第④步：结合第①步，证明Lemma2的条件(3)成立
第①步的证明可以推出 $\mathbb{E}\{F_t^Q|\mathbf{P_t}\}\leq\gamma \lVert\Delta_t\rVert$ 成立，因为此时的 $F_t^Q$ 的设置正是Q-learning单估计的设置。
接下来做个简单的处理： $\mathbb{E}\{F_t^Q|\mathbf{P}_t\}+\mathbb{E}\{c_t|\mathbf{P}_t\}\leq\gamma\lVert\Delta_t\rVert+\mathbb{E}\{c_t|\mathbf{P}_t\} \\ \Rightarrow \mathbb{E}\{F_t^Q+c_t|\mathbf{P}_t\}\leq\gamma\lVert\Delta_t\rVert+\mathbb{E}\{c_t|\mathbf{P}_t\} \\\overset{令\mathbb{E}\{c_t|\mathbf{P}_t\}=c_t}{\Longrightarrow}\lVert\mathbb{E}\{F_t(s_t,a_t)|\mathbf{P}_t\}\rVert\leq\gamma\lVert\Delta_t\rVert+c_t$ 即最难的Lemma2的条件(3)得证明。
第⑤步：证明 $\Delta_t\to 0$
首先要给出Lemma2的关于 $\Delta$ 的式子：

（ $F_t(s_t,a_t)$ 上面第①步已经给出。）
显然现在Lemma2的条件(1)(2)(3)(4)均符合，故可以推出：
$\Delta_t\to 0 \\i.g.Q_t^A\to Q^*$
第⑥步：证明 $Q^A,Q^B\to Q^*$
在第②步中 $\Delta_t^{BA}\to0$ ，因此 $Q_t^A,Q^B_t\to Q^*$ 即Double Q-earning能收敛至最优值函数 $Q^*$ （不写具体的状态动作对就默认是对所有的 $S\times A$ ）。

4 Experiments

作者通过2个实验来说明2个事情：

Q-learning存在过估计现象。
Q-learning和Double Q-learning的比较。

$\gamma$ =0.95， $\alpha_t(s,a)=1/n_t(s,a)$ 以及 $\alpha_t=1/n_t(s,a)^{0.8}$ （后者这种polynomial学习率设置在Lr for Q-learning中表现的更好。 $n_t(s,a)$ 是值函数更新的次数）
对于Double Q-learning， $n_t(s,a)$ 是分 $n^A_t(s,a)$ 和 $n_t^B(s,a)$ 的。

4.1 Roulette

这游戏涉及到轮盘赌桌游戏背景，就不介绍这个实验了。
略

4.2 Grid World

格子世界应该是离散状态、离散动作最常见的Env了。实验的设置是这样的：
模样如下图右下角所示，4个动作，9个状态，实时奖励r是+10或-12各自50%概率（故每步平均奖励-1），终点目标为+5。最优策略是4步，平均奖励为0.5。 $\epsilon=1/\sqrt{n(s)}$ ，其中 $n (s)$ 为探索过的状态数。
行为策略采用 $\epsilon-greedy$ 策略的好处：

一来是Q-learning和Double Q-learning在收敛上的需要。
二来这种策略有利于Q-learning减少他的过估计问题。比如我们有四个Q值： $Q(s_1,a_1),Q(s_1,a_2),Q(s_1,a_3),Q(s_1,a_4)$ 我们都知道Q-learning算法是基于单估计器的，因此更新会使得Q值逐步走向过估计。而根据式(5),过估计的正向bias可能会很大，因此比如说 $Q(s_1,a_1)$ 过估计了，那么 $\epsilon-greedy$ 中的贪心策略会使得这个动作 $a_1$ 经常被选中，然后进行更新。这样做的好处就是其余的 $a_2,a_3,a_4$ 被选中进行更新次数就少了，可以说走向过估计的程度变轻了，一定程度上减小了过估计。

在这里插入图片描述
实验结果如上图左边的四张图所示，横坐标是epsiode的个数，纵坐标分别是每个epsiode的平均步长奖励以及初始状态 $\mathbf{S}$ 对应的最大动作值函数 $Q(\mathbf{S},a)$ 。实验总体被分成2个学习率设置下的训练过程，分别是衰减式和polynomial式。
分析：

从第二行的2张图来看，Q-learning存在过估计现象，Double Q-learning存在欠估计现象。其中横着的虚线是最优策略下的行径路线，也就是这个状态下的Q真值，为 $5\gamma^4-\sum_{k=0}^2 \gamma^k\approx0.9$ 。
随着episode增大，即训练加深，2种算法都逐渐开始收敛，总体而言，2种算法相差不大。但是基于第一行的2张图，显然Double Q-learning的平均步长奖励更接近最优平均奖励0.5，表现比Q-learning好很多，也可以理解为Double Q-learning可以获得更多的奖励，打游戏能力更强。
对比两列，可以看出polynomial式的学习率设置可以在2种算法上都有促进作用。

5 Discussion

略

6 Conclusion

总结：

分析了Q-learning算法的overestimation。
引出了Double Q-learning去解决过估计问题，但是这个算法本身会造成underestimation。

展望：
Q-learning展现了过估计，Double Q-learning展现了欠估计。那么就有可能引出一种无偏差的off-policy算法，或者一种低方差的无偏蒙特卡洛on-policy算法。

Ton10

关注

7
点赞
踩
23

收藏

觉得还不错? 一键收藏
4
评论
论文笔记之Double Q-learning

经典的Q-learning算法因为目标策略的取max步骤使得Q估计值存在过估计现象。Q(s,a)估计的不准确会导致Agent表现力很差，比如原本2个真值Q(s,a0)>Q(s,a1)Q(s,a_0)>Q(s,a_1)Q(s,a0)>Q(s,a1)，但过估计可能会使得收敛时他们的估计值Q(s,a0)<Q(s,a1)Q(s,a_0)<Q(s,a_1)Q(s,a0)<Q(s,a1)。那么根据贪心策略，会出现次优策略。为了解决过估计这个糟糕的问题，2010年Hassel
复制链接

扫一扫