强化学习Q-learning（超详解）

最新推荐文章于 2024-04-27 09:40:45 发布

Veritaswhs

最新推荐文章于 2024-04-27 09:40:45 发布

阅读量2.8w

点赞数 22

分类专栏：强化学习

本文链接：https://blog.csdn.net/weixin_43398590/article/details/107130244

版权

强化学习专栏收录该内容

0 篇文章 2 订阅

订阅专栏

如何估计 $V^{\pi}(s)$

$V^{\pi}(s)$ 代表我们的主体是 $\pi$ 在当前局面 $s$ 得分的期望值。

Monte-Carlo(MC) based approach

使用基于蒙特卡罗的方法，让我们的模型与环境做互动。我们输入一个 $S_a$ 得到一个估计值，我们希望我们的估计值与 $G_a$ 越接近越好，所以可以当做一个回归问题来训练我们的神经网络。
具体过程如下：
在这里插入图片描述
但是这个方法也有问题，这样必须等每局游戏结束，才能得到数据，如果游戏的时间特别长，使用这种方法是十分缓慢的。

Temporal-difference(TD) approach

Monte-Carlo的方法，比较把游戏进行到结束。而这种方式不需要将游戏玩到结束。
$V^{\pi}\left(s_{t}\right)=V^{\pi}\left(s_{t+1}\right)+r_{t}$ 我们可以得到 $V^{\pi}\left(s_{t}\right)$ 已经 $V^{\pi}\left(s_{t+1}\right)$ 的值，然后把这两个值的差值丢入我们的神经网络中进行计算： $V^{\pi}\left(s_{t}\right)-V^{\pi}\left(s_{t+1}\right) \leftrightarrow r_{t}$
在这里插入图片描述

两种方式比较

MC: 使用这种方式的时候方差很大，因为一场完整的游戏过程中有很多的偶然因素影响。即使你使用完全一样的策略，最后得到的 $G_a$ 也会不一样。
TD: 因为这里训练的是 $r$ 的值，而 $r$ 只是单独的一步，所以它的方差会比较小。这里也有一个问题，就是你的 $V$ 值不一定能够估计的准，因此也会造成误差。
总体来说，两种方法各有优劣。 在这里插入图片描述

Q-learning

$Q^\pi (s,a)$ 表示在状态 $s$ 下采取行动 $a$ 预计获得的收益。
Q-learning的思路就是通过与环境互动使用更好的 $\pi'$ 来更新原来的 $\pi$ 。具体过程如下：
在这里插入图片描述
什么是更好的 $\pi$ 呢？定义如下：对于任意的状态 $s$ $V^{\pi^{\prime}}(s) \geq V^{\pi}(s)$ 如何寻找 $\pi^{\prime}(s)$ 呢？ $\pi^{\prime}(s)=\arg \max _{a} Q^{\pi}(s, a)$ 实际上， $\pi'$ 并没有额外的参数或者另一个神经网络去表示，它只是依靠 $Q$ 推导出来的。
注意： 如果动作是一个连续值的话则不适合使用这种方法。
为什么使用 $Q$ 决定出来的 $\pi'$ 一定比 $\pi$ 好呢？具体的证明如下： $\begin{aligned} V^{\pi}(s)=Q^{\pi}(s, \pi(s)) \leq \max _{a} Q^{\pi}(s, a)=Q^{\pi}\left(s, \pi^{\prime}(s)\right) \end{aligned}$ 我们可以看到对于某一步，这个规则成立，对于多步时，证明如下：
$\begin{array}{l} V^{\pi}(s) \leq Q^{\pi}\left(s, \pi^{\prime}(s)\right) \\ =E\left[r_{t+1}+V^{\pi}\left(s_{t+1}\right) \mid s_{t}=s, a_{t}=\pi^{\prime}\left(s_{t}\right)\right] \\ \leq E\left[r_{t+1}+Q^{\pi}\left(s_{t+1}, \pi^{\prime}\left(s_{t+1}\right)\right) \mid s_{t}=s, a_{t}=\pi^{\prime}\left(s_{t}\right)\right] \\ =E\left[r_{t+1}+r_{t+2}+V^{\pi}\left(s_{t+2}\right) \mid \ldots\right] \\ \leq E\left[r_{t+1}+r_{t+2}+Q^{\pi}\left(s_{t+2}, \pi^{\prime}\left(s_{t+2}\right)\right) \mid \ldots\right] \ldots \leq V^{\pi^{\prime}}(s) \end{array}$

Q-learning技巧

Target Network

我们使用Q-learning的时候，有一个部分 $\begin{array}{l} \mathrm{Q}^{\pi}\left(s_{t}, a_{t}\right) =r_{t}+\mathrm{Q}^{\pi}\left(s_{t+1}, \pi\left(s_{t+1}\right)\right) \end{array}$ 这和之前的TD方法是类似的（同样都有 $r$ 值）。
因为我们训练的时候不希望改变我们的Target，因为我们要拟合一个不停变化的值是相当困难的。所以我们选择固定Target的值，不改变他的参数，在这种情况下进行训练。
具体过程如下：
在这里插入图片描述

Exploration

在我们搜索的时候，我们使用的是如下公式 $a=\arg \max _{a} Q(s, a)$ 所以没有探索到的位置的 $Q$ 值始终为0，因而一直不会被选中（如果使用的是神经网络这种现象较弱，但是依然存在）具体如下图所示：
在这里插入图片描述
所以为了避免每次都做出同样的选择，我们可以采用以下的方法：
Epsilon Greedy
$a=\left\{\begin{array}{cl} \arg \max _{a} Q(s, a), & \text { with probability } 1-\varepsilon \\ \text { random, } & \text { otherwise } \end{array}\right.$ 其中 $\varepsilon$ 的值会随着学习的进行而衰减。
Boltzmann Exploration
$\mid s)=\frac{\exp (Q(s, a))}{\sum_{a} \exp (Q(s, a))}$