深度强化学习系列(5): Double Q-Learning原理详解

最新推荐文章于 2025-08-21 15:30:31 发布

置顶

@RichardWang

最新推荐文章于 2025-08-21 15:30:31 发布

阅读量1.8w

点赞数 22

CC 4.0 BY-SA版权

本文链接：https://blog.csdn.net/gsww404/article/details/103413124

在这里插入图片描述
论文地址： https://papers.nips.cc/paper/3964-double-q-learning.pdf

本论文由DeepMind发表于2015年NIPS的一篇论文，作者Hasselt。

前言： Q-Learning算法由于受到大规模的动作值过估计(overestimation)而出现不稳定和效果不佳等现象的存在，而导致overestimation的主要原因来自于最大化值函数(max)逼近，该过程目标是为了最大的累计期望奖励，而在这个过程中产生了正向偏差。而本文章作者巧妙的是使用了两个估计器(double estimator)去计算Q-learning的值函数，作者将这种方法定义了一个名字叫“Double Q-learning”（本质上一个off-policy算法），并对其收敛过程进行了证明(缺点：当然double Q-learning算法有时会低估动作值，但不会像Q学习那样遭受过高估计）

1. 问题及原因

“过估计” (overestimate)

过估计是指对一系列数先求最大值再求平均，通常比先求平均再求最大值要大（或相等，数学表达为： $E(\max (X1, X2, ...)) \geq \max (E(X1), E(X2), ...)$

一般来说Q-learning方法导致overestimation的原因归结于其更新过程，其表达为：
$Q_{t+1}\left(s_{t}, a_{t}\right)=Q_{t}\left(s_{t}, a_{t}\right)+\alpha_{t}\left(s_{t}, a_{t}\right)\left(r_{t}+\gamma \max _{a} Q_{t}\left(s_{t+1}, a\right)-Q_{t}\left(s_{t}, a_{t}\right)\right)$

其中的 $\max\limits_{a}$ 表示为最大化action-value, 而更新最优化过程如下：
$\forall s, a: Q^{*}(s, a)=\sum_{s^{\prime}} P_{s a}^{s^{\prime}}\left(R_{s a}^{s^{\prime}}+\gamma \max _{a} Q^{*}\left(s^{\prime}, a\right)\right)$

对于任意的 $s, a$ 来说，最优值函数 $Q^{*}$ 的更新依赖于 $\max \limits_{a} Q^{*}(s,...)$ , 从公式中可以看出，我们把N个Q值先通过取max操作之后，然后求平均(期望)，会比我们先算出N个Q值取了期望之后再max要大。这就是overestimate的原因。