最大化偏差问题与Double Q-Learning(一)——最大化偏差问题介绍

静静的喝酒

已于 2022-07-15 17:03:41 修改

阅读量1.4k

点赞数 5

分类专栏：强化学习文章标签： python 概率论算法贪心算法

于 2022-07-14 13:24:33 首次发布

本文链接：https://blog.csdn.net/qq_34758157/article/details/125763550

版权

时序差分方法求解强化学习任务——最大化偏差问题

使用贪心策略，获取当前状态 $S_t$ 中最大状态-动作价值函数对应的动作：
$A^* = \mathop{\arg\max}\limits_{a} Q(S_t,a)$
在 $A^*$ 的基础上，再使用 $\epsilon-$ 贪心策略将 $A^*$ 转化为 软性策略：
$\begin{aligned} \forall a \in \mathcal A(S_t) \to \\ \pi(a \mid S_{t}) &= \left\{ \begin{array}{ll} 1 - \epsilon_k + \frac{\epsilon_k}{\mid\mathcal A(S) \mid} \quad a= A^*\\ \frac{\epsilon_k}{\mid\mathcal A(S) \mid}\quad\quad \quad \quad\quad a \neq A^* \end{array} \right. \end{aligned}$

这种操作的本质是将估计值 $Q(S_t,a)$ 中的最大值作为真实值的估计。这种估计结果会造成 $Q(S_t,a)$ 的估计结果与真实值的估计结果之间存在一个 正向偏差，这个偏差被称为 最大化偏差。

最大化偏差是如何出现的

再次观察上面描述策略改进过程：无论是选择最优动作 $A^*$ 还是将 $A^*$ 转化为软性策略 —— 根本就 没有偏差的机会：

选择最优动作 $A^* \to$ 选最大值；
软性策略转化 $\to$ 基于人为设定 $\epsilon$ 的贪心算法；

因此，真正可能出现偏差的位置在策略评估过程——准确来说，就在状态-动作价值函数 $Q (S, A)$ 的迭代过程。
因为策略评估中’动作a的选择‘仍然只是一个ε-贪心策略；和策略改进部分没有区别。

回顾SARSA和Q-Learning算法的迭代过程公式如下：

$Q(S_t,A_t) \gets Q(S_t,A_t) + \alpha[R_{t+1} + \gamma Q(S_{t+1},A_{t+1}) - Q(S_t,A_t)] \\ Q(S_t,A_t) \gets Q(S_t,A_t) + \alpha[R_{t+1} + \gamma \mathop{\max}\limits_{a}Q(S_{t+1},a) - Q(S_t,A_t)]$

我们发现：每个状态-动作价值函数 $Q (S, A)$ 都会选择选择下一时刻的最优状态-动作价值函数 $Q(S_{t+1},A_{t+1})$ 或者 $\mathop{\max}\limits_{a}Q(S_{t+1},a)$ 作为 $Q (S, A)$ 的更新方向。
即便SARSA选择的动作存在一定概率不是最优的，但下一时刻的动作也是通过ε-贪心策略选择出来的，因此，选择到最优动作的概率明显高于其他动作。