深度强化学习（2）Double DQN

最新推荐文章于 2024-08-26 22:21:22 发布

#妖言惑众

最新推荐文章于 2024-08-26 22:21:22 发布

阅读量617

点赞数 2

分类专栏：深度强化学习文章标签：深度强化学习 DQN Double DQN Q-learning

本文链接：https://blog.csdn.net/weixin_43316082/article/details/90111121

版权

深度强化学习专栏收录该内容

8 篇文章 2 订阅

订阅专栏

Double DQN

在深度强化学习（1）我们讲了DQN，DQN的框架仍然是Qlearning。DQN 只是利⽤了卷积神经⽹络表⽰动作值函数，并利用了经验回放和单独设立目标网络这两个技巧。DQN无法克服Qlearning 本身所固有的缺点——过估计。
那么什么是过估计？Qlearning为何具有过估计的缺点呢？
过估计是指估计的值函数比真实值函数要大。⼀般来说，Qlearning之所以存在过估计的问题，根源在于Qlearning中的最大化操作。
Qlearning评估值函数的数学公式如下有两类。
（1）对于表格型，值函数评估的更新公式为：

$Q\left(s_{t}, a_{t}\right) \leftarrow Q\left(s_{t}, a_{t}\right)+\alpha\left[r_{t}+\gamma \max _{a} Q\left(s_{t+1}, a\right)-Q\left(s_{t}, a_{t}\right)\right]$

（2）对于基于函数逼近的方法的值函数更新公式为：

$\theta_{t+1}=\theta_{t}+\alpha\left(R_{t+1}+\gamma \max _{a} Q\left(S_{t+1}, a ; \theta_{t}\right)-Q\left(S_{t}, A_{t} ; \theta_{t}\right)\right) \nabla_{\theta_{t}} Q\left(S_{t}, A_{t} ; \theta_{t}\right)$

从以上两个式子我们知道，不管是表格型还是基于函数逼近的方法，值函数的更新公式中都有max操作。 max操作使得估计的值函数⽐值函数的真实值大。如果值函数每⼀点的值都被过估计了相同的幅度，即过估计量是均匀的，那么由于最优策略是贪婪策略，即找到最大的值函数所对应的动作，这时候最优策略是保持不变的。也就是说，在这种情况下，即使值函数被过估计了，也不影响最优的策略。强化学习的目标是找到最优的策略，而不是要得到值函数，所以这时候就算是值函数被过估计了，最终也不影响我们解决问题。然而，在实际情况中，过估计量并非是均匀的，因此值函数的过估计会影响最终的策略决策，从而导致最终的策略并非最优，而只是次优。

为了解决这个问题， DDQN通过解耦目标Q值动作的选择和目标Q值的计算这两步，来达到消除过度估计的问题。

DDQN和DQN一样，也有一样的两个Q网络结构。在DQN的基础上，通过解耦目标Q值动作的选择和目标Q值的计算这两步，来消除过度估计的问题。

DQN对于非终止状态，其目标Q值的计算式子是：

$y_{j}=R_{j}+\gamma \max _{a^{\prime}} Q^{\prime}\left(\phi\left(S_{j}^{\prime}\right), A_{j}^{\prime}, w^{\prime}\right)$

在DDQN这里，不再是直接在目标Q网络里面找各个动作中最大Q值，而是先在当前Q网络中先找出最大Q值对应的动作，即：

$a^{\max }\left(S_{j}^{\prime}, w\right)=\arg \max _{a^{\prime}} Q\left(\phi\left(S_{j}^{\prime}\right), a, w\right)$

然后利用这个选择出来的动作 $a^{\max }\left(S_{j}^{\prime}, w\right)$ 在目标网络里面去计算目标Q值。即：

$y_{j}=R_{j}+\gamma Q^{\prime}\left(\phi\left(S_{j}^{\prime}\right), a^{\max }\left(S_{j}^{\prime}, w\right), w^{\prime}\right)$

综合起来写就是：

$y_{j}=R_{j}+\gamma Q^{\prime}\left(\phi\left(S_{j}^{\prime}\right), \arg \max _{a^{\prime}} Q\left(\phi\left(S_{j}^{\prime}\right), a, w\right), w^{\prime}\right)$

DDQN算法流程
输入：迭代轮数 $T$ ，状态特征维度 $n$ , 动作集 $A$ , 步长 $α$ ，衰减因子 $γ$ , 探索率 $ϵ$ , 当前 $Q$ 网络 $Q$ ，目标 $Q$ 网络 $Q^{\prime}$ , 批量梯度下降的样本数 $m$ ,目标 $Q$ 网络参数更新频率 $C$ 。
输出： $Q$ 网络参数

随机初始化所有的状态和动作对应的价值 $Q$ . 随机初始化当前 $Q$ 网络的所有参数 $w$ ,初始化目标 $Q$ 网络 $Q^{\prime}$ 的参数 $w^{\prime}=w$ 。清空经验回放的集合 $D$ 。
for i from 1 to $T$ ，进行迭代：
　a) 初始化 $S$ 为当前状态序列的第一个状态, 拿到其特征向量 $ϕ (S)$
　
　b) 在 $Q$ 网络中使用 $ϕ (S)$ 作为输入，得到 $Q$ 网络的所有动作对应的 $Q$ 值输出。用 $ϵ -$ 贪婪法在当前 $Q$ 值输出中选择对应的动作 $A$
　
　c) 在状态 $S$ 执行当前动作 $A$ ,得到新状态 $S^{\prime}$ 对应的特征向量 $\phi\left(S^{\prime}\right)$ 和奖励 $R$ ，是否终止状态is_end
　
　d) 将 $\left\{\phi(S), A, R, \phi\left(S^{\prime}\right), i s_{-} e n d\right\}$ 这个五元组存入经验回放集合 $D$
　
　e) $S=S^{\prime}$
　
　f) 从经验回放集合 $D$ 中采样 $m$ 个样本 $\left\{\phi\left(S_{j}\right), A_{j}, R_{j}，\phi\left(S_{j}^{\prime}\right), i s_{-} e n d_{j}\right\}, j=1,2,,, m$ 计算当前目标Q值 $y_{j}$ ：
　 $y_{j}=\left\{\begin{array}{ll}{R_{j}} & {i s_{-} e n d_{j} \text { is true }} \\ {R_{j}+\gamma Q^{\prime}\left(\phi\left(S_{j}^{\prime}\right), \arg \max _{a^{\prime}} Q\left(\phi\left(S_{j}^{\prime}\right), a, w\right), w^{\prime}\right)} & {i s_{-} e n d_{j} \text { is false }}\end{array}\right.$
　
　g) 使用均方差损失函数 $\frac{1}{m} \sum_{j=1}^{m}\left(y_{j}-Q\left(\phi\left(S_{j}\right), A_{j}, w\right)\right)^{2}$ ，通过神经网络的梯度反向传播来更新 $Q$ 网络的所有参数 $w$
　
　h) 如果 $T$ % $C$ =1，则更新目标 $Q$ 网络参数 $w^{\prime}=w$
　
　i) 如果 $S^{\prime}$ 是终止状态，当前轮迭代完毕，否则转到步骤 b)