（《机器学习》完整版系列）第16章强化学习——16.9 时序差分学习（Sara算法与Q-学习算法）-CSDN博客

本文链接：https://blog.csdn.net/qiy_icbc/article/details/129799488

文章介绍了强化学习中的蒙特卡罗试验在最短轨线上的应用，以及如何通过递推式进行时序差分学习。特别地，探讨了如何将均值型的一次求和转换为增量求和，以适应单步蒙特卡罗试验。此外，文章还讨论了在均匀分布和ε-贪心策略下，期望值的近似计算，并展示了如何将这些概念应用于Sara算法和Q-学习算法中。

摘要由CSDN通过智能技术生成

提示：
前述蒙特卡罗试验并没有限定轨线长度，现在把焦点放在最短轨线上：新增一步蒙特卡罗试验产生的长度为1的轨线。
由于取长度为1的蒙特卡罗试验轨线（单步），即可更新一次，不再需要计数变量

时序差分学习

对于均值【西瓜书式(16.1)】型，利用递推式【西瓜书式(16.2)】技巧可以高效地增量式地计算，体现在【西瓜书图16.4第11句、图16.5第7句、图16.10第6句、图16.11第7句】中，也可以利用递推式【西瓜书式(16.3)】计算，将其重写为下标为变量的形式
$\begin{align} Q_{t+1}=Q_t+\frac{1}{t+1}(v_{t+1}-Q_t) \tag{16.68} \end{align}$
其中， $t=0,1,2,\cdots,n-1$ ，应用时需初始化 $Q_0$ 。

现在，为求近似而简化式(16.68)：以小常数 $\alpha$ 代替变数 $\frac{1}{t+1}$ ，得
$\begin{align} Q_{t+1}=Q_t+\alpha (v_{t+1}-Q_t) \tag{16.69} \\ Q_{t+1}=(1-\alpha)Q_t+\alpha v_{t+1} \tag{16.70} \end{align}$

式(16.70)是差分形式，虽然是近似，但放到递推式中是合理的，因为，递推式本来就是通过近似式逐步逼近真值，而且往往不是一定找到真值，而是在指定的时间内找到可接受的值。
注：数列： $a_1,a_2,\cdots,a_n,\cdots$ ，其一阶差分为： $a_2-a_1,a_3-a_2,\cdots,a_n-a_{n-1},\dots$ ，一阶广义差分为： $a_2-da_1,a_3-da_2,\cdots,a_n-da_{n-1},\dots$ ，故数列 $\{Q_{t+1}-(1-\alpha)Q_t\}_t$ 为数列 ${Q_t\}_t$ 的广义差分。

我们先做些准备。

（1）将【西瓜书式(16.1)】的一次求和，变为【西瓜书式(16.3)】的增量求和，下面我们将这种方法推广到更一般的情况。
$\begin{align} Q_n & =\sum_{i=1}^nP_iv_i\tag{16.71} \\ & =P_nv_n+\sum_{i=1}^{n-1}P_iv_i\notag \\ & =P_nv_n+(\sum_{i=1}^{n-1}P_i)\sum_{i=1}^{n-1}\frac{P_i}{\sum_{i=1}^{n-1}P_i}v_i\notag \\ & =P_nv_n+(1-P_n)\sum_{i=1}^{n-1}P'_iv_i\notag \\ & =P_nv_n+(1-P_n)Q_{n-1}\notag \\ & =Q_{n-1}+P_n(v_n-Q_{n-1}) \tag{16.72} \end{align}$
其中， $\sum_{i=1}^nP_i=1,\ \sum_{i=1}^{n-1}P'_i=1,\ p'_i=\frac{P_i}{\sum_{i=1}^{n-1}P_i}$ 。

将式(16.72)中下标改为变量 $t$ ，让其从1到 $n$ ，由则该式可递推地计算出 $Q_n$ ，但每次计算使用了不同的 $P_t$ ，现在，为简化以常数 $\alpha <1$ 代替变数 $P_t$ ，则同样有式(16.69)的递推式，即由式(16.71)可得式(16.69)。

式(16.71)中的 $i$ 是基于“类别”的（指求和中每一项是一类，该类的概率为 $P_i$ ），导致此时式(16.69)中的 $t$ 也是基于“类别”的。然而，采样（蒙特卡罗试验）每次得到的是一个“样本”，所以，我们希望增量是以“样本”为单位而不是以“类别”为单位。回顾2.2 如何选个好模型？，类似于其中的式(2.ab)，我们将 $Q$ 表述为
$\begin{align} \sum_{i=1}^nP_iv_i =\frac{1}{m}\sum_{i=1}^mv'_i \tag{16.73} \end{align}$
其中，右侧为进行了 $m$ 次采样，得到的样本（值）依次为： $v'_1,v'_2,\cdots,v'_m$ 。注意左右边的区别：左边的 $v_i$ 无重复，右边的 $v^{'}$ 有重复，左边有概率式，右边无概率式，其实右边是通过“重复”来体现概率（概率大的取到的样本多）。

记
$\begin{align} Q'_m =\frac{1}{m}\sum_{i=1}^mv'_i \tag{16.74} \end{align}$
这即为【西瓜书 (16.1)】型，式(16.69)变为
$\begin{align} Q=\sum_{i=1}^nP_iv_i\Rightarrow Q'_{t+1}=Q'_t+\alpha (v_{t+1}-Q'_t) \tag{16.75} \end{align}$
即对式(16.71)有基于每次采样的增量递推式(16.75)，每采到一个样本 $v_{t+1}$ 用一次该式更新。

（2）均匀分布与 $\epsilon$ -贪心策略
$\begin{align} \mathbb{E} v\approx \sum_{i=1}^nP_iv_i \tag{16.76} \end{align}$
其中， $\sum_{i=1}^nP_i=1$ 。

当概率为均匀分布且 $P^{'}$ 为其概率时
$\begin{align} \sum_{i=1}^nP_iv_i & = \sum_{i=1}^nP'v_i\notag \\ & =P'\sum_{i=1}^nv_i \tag{16.77} \end{align}$

受此启发，考察 ${P_i\}_{i=1}^n$ 为某确定性策略的 $\epsilon$ -贪心策略式(16.65)，不妨设确定性策略为 $\pi =(1,0,0,\cdots,0)$ ，则其 $\epsilon$ -贪心策略为 $\pi ^{\epsilon}=(P_1,\frac{\epsilon}{|A|},\frac{\epsilon}{|A|},\cdots,\frac{\epsilon}{|A|})$ ，它是一个很有特点的分布：只有一个点（为简便假设为第 $1$ 个点）概率很大（ $P_1=1-\epsilon+\frac{\epsilon}{|A|}>1-\epsilon \approx 1$ ），其余点的概率很小且是均匀分布的（ $P_i=\frac{\epsilon}{|A|},\ i=2,3,\cdots,n$ ），
$\begin{align} \sum_{i=1}^nP_iv_i & = P_1v_1+\sum_{i=2}^nP_2v_i\notag \\ & = P_1v_1+\frac{\epsilon}{|A|}\sum_{i=2}^nv_i \tag{16.78} \\ & \approx P_1 v_1 \tag{16.79} \\ & \approx v_1 \tag{16.80} \end{align}$
其中， $v_1$ 为概率最大处的 $v$ 值，式(16.78)、式(16.79)、式(16.80)为逐步不精确，供因需选择。

而确定性策略 $\pi =(1,0,0,\cdots,0)$ 有
$\begin{align} \sum_{i=1}^nP_iv_i & = 1\times v_1+\sum_{i=2}^n0\times v_i\notag \\ & = v_1 \tag{16.81} \end{align}$
由式(16.80)、式(16.81)知，计算 $\sum_{i=1}^nP_iv_i$ 时，在近似意义下，计算期望时，用确定性策略与用该确定性策略的 $\epsilon$ -贪心策略几乎是等效的（1、这种等效是概率意义下的等效，即做一次蒙特卡罗试验，很大概率二者相等；2、在实践中，我们在寻找最优策略时通常是这样使用该等效性：在公式推导时使用确定性策略 $\pi$ ，在算法中的蒙特卡罗试验时采用对应的 $\epsilon$ -贪心策略 $\pi ^{\epsilon }$ ），即
$\begin{align} \text{$\pi$为确定性策略}\Rightarrow \mathbb{E} _{\pi ^{\epsilon }}v(x,a)=\mathbb{E} _\pi v(x,a)= v(x,a') \tag{16.82} \end{align}$

有了上述准备，现在考虑“ $\gamma$ 型”累积奖赏的递推式。

考察一步蒙特卡罗试验，将16.3 有模型迭代式的详细推导图 16.6 变为图 16.12 ，该蒙特卡罗试验得到长度为1的轨线：起点为 $(x, a)$ ，由概率 $P^a_{x \to x_{t+1}}$ 获得 $x_{t+1}$ ，再由确定性策略 ${\pi}$ 获得 $a_{t+1}$ 。
图 16.12 单步轨线

图 16.12 单步轨线

$\begin{align} Q^{\pi}(x,a) & =\sum_{x'\in X}P^a_{x \to x'}(R^a_{x \to x'}+\gamma V^{\pi}(x'))\quad \text{（由【西瓜书式(16.10)】）}\notag \\ & =\sum_{x'\in X}P^a_{x \to x'}(R^a_{x \to x'}+\gamma \sum_{a\in A}\pi (x',a) Q^{\pi}(x',a))\quad \text{（由式(16.17)）}\notag \\ & = \sum_{x'\in X}P^a_{x \to x'}(R^a_{x \to x'}+\gamma Q^{\pi}(x',a')) \tag{16.83} \end{align}$
其中， $\pi$ 为确定性策略式(16.63)， $a^{'}$ 为 $\pi$ 在点 $x^{'}$ 处选取的动作。

设状态有限，对状态进行编号，即 $X=\{x_1,x_2,\cdots,x_n\}$ ，则式(16.83)可改写为
$\begin{align} Q^{\pi}(x,a) & = \sum_{i=1}^nP^a_{x \to x_i}(R^a_{x \to x_i}+\gamma Q^{\pi}(x_i,a_i)) \tag{16.84} \end{align}$
其中， $x,a,\pi$ 为常量（在本式计算时）， $a_i$ 为确定性策略 $\pi$ 在点 $x_i$ 处选取的动作。

令 $P_i=P^a_{x \to x_i},\ v_i=(R^a_{x \to x_i}+\gamma Q^{\pi}(x_i,a_i))$ ，则式(16.84)即为式(16.71)，这时，对应的式(16.75)变为
$\begin{align} Q^{\pi}_{t+1}(x,a)=Q^{\pi}_t(x,a)+\alpha (R^a_{x \to x_{t+1}}+\gamma Q^{\pi}(x_{t+1},a_{t+1})-Q^{\pi}_t(x,a)) \tag{16.85} \end{align}$
式(16.85)为已知 $Q^{\pi}(x_{t+1},a_{t+1})$ 时的递推式，当然，这个要求不合理，故需再近似一下，即以其当前值 $Q^{\pi}_t(x_{t+1},a_{t+1})$ 作为替代，进而得递推式(16.86)。
将式(16.85)右侧的 $Q$ 修改为 $Q_t$ ， $\to x_{t+1}}$ 修改为 $\to x'}$ ，则成为递推式：
$\begin{align} Q^{\pi}_{t+1}(x,a)=Q^{\pi}_t(x,a)+\alpha (R^a_{x \to x'}+\gamma Q^{\pi}_t(x',a')-Q^{\pi}_t(x,a)) \tag{16.86} \end{align}$
其中， $\to (x',a'))$ 为新增的一步蒙特卡罗试验产生的长度为1的轨线（参见图 16.12 中的描述）， $Q^{\pi}_t$ 为 $Q^{\pi}$ 的当前值， $Q^{\pi}_{t+1}$ 为增加一条新轨线后的更新值。递推式产生的值序列 $\{Q^{\pi}_t\}_{t=1}^m$ 逐步逼近 $Q^{\pi}$ ，只要该蒙特卡罗试验的次数 $m$ 足够多，则 $Q^{\pi}\approx Q^{\pi}_m$ 。这即为【西瓜书式(16.31)】。

根据式(16.86)【西瓜书式(16.31)】就可以改造前述蒙特卡罗强化学习算法，观察式(16.86)，执行步只有一步（ $x\to x'$ ），即，取长度为1的蒙特卡罗试验轨线（单步），即可更新一次，不再需要计数变量 $\mathrm{count}(k)$ 。
注：若将一步的两个阶段视为两个半步，则这里的单步轨线实际是考虑一步半（从 $x$ 到 $a^{'}$ 的三个半步），第三个半步会被下个单步覆盖（Sara算法中）或丢弃（Q-学习算法中）。

而转移概率 $P$ 和决策概率 $\pi$ 在试验时用于采样，在递推式中并不显式地体现，这样就大为简化了算法。基于式(16.82)描述的等效性，可采用确定性策略 ${\pi}$ 或确定性策略 ${\pi}$ 的 ${\epsilon }$ -贪心策略 ${\pi}^{\epsilon }$ 进行采样。
注：用 ${\pi}^{\epsilon }$ 的好处是增加了随机性，“合理地增加随机性”是机器学习中常用的技巧。

（1）设轨线为
$\left[x\mathop{\longrightarrow }\limits_{\pi ^{\epsilon }}a\mathop{\longrightarrow }\limits_{P^a_{x\to x'}}x'\mathop{\longrightarrow }\limits_{\pi ^{\epsilon }}a'\right]$
即为Sara算法【西瓜书图16.12】：

1.初始化： $\{Q(x,a)=0\}_{X\times A}$ 及确定开始的“前半步” $(x\to a)$ ，第1-2句。

2.从点 $(x, a)$ 依概率 $P^a_{x\to x'}$ 采样产生点 $(x^{'})$ ，第4句，其中，先前已执行 $a=\pi ^{\epsilon }(x)$ 从点 $(x)$ 到点 $(x, a)$ （由上一轮循环的第5和第8句间接地知道）。

3.取 $a'=\pi ^{\epsilon }(x')$ 而获得终点 $(x^{'}, a^{'})$ ，第5句。

4.将点 $(x, a)$ 和点 $(x^{'}, a^{'})$ 中已有的 $Q$ 值视为迭代步 $t$ 时的值，即已知 $Q_t(x,a),Q_t(x',a')$ 。

进行策略评估更新：由式(16.86)【西瓜书式(16.31)】求 $Q_{t+1}(x,a)$ ，即更新 $Q (x, a)$ ，第6句。

5.改进策略： $\pi (x)=\mathop{\arg\max}\limits_{a''\in A}Q(x,a'')$ ，第7句。

6.前进：更新“前半步” $(x\to a)$ ，即 $x := x^{'}, a := a^{'}$ （覆盖已有的 $x'\to a'$ ），第8句。

7.回到2.继续循环（第3-9句），直至结束条件满足。

其中，第8句是希望这些单步能连接起来形成轨线，有的还在外面再套一层循环以示多条轨线。其实，没有这个必要，可以改为随机选择起点。

（2）设轨线为
$\left[x\mathop{\longrightarrow }\limits_{\pi ^{\epsilon }}a\mathop{\longrightarrow }\limits_{P^a_{x\to x'}}x'\mathop{\longrightarrow }\limits_{\pi }a'\right]$
即为Q-学习算法【西瓜书图16.13】：

1.初始化： $\{Q(x,a)=0\}_{X\times A}$ 及确定起点 $x$ ，第1-2句。

2.在起点 $x$ 处执行 $a=\pi ^{\epsilon }(x)$ ，再依概率 $P^a_{x\to x'}$ 采样产生点 $(x^{'})$ ，第4句。

3.取 $a'=\pi (x')$ 而获得终点 $(x^{'}, a^{'})$ ，第5句。

4.将点 $(x, a)$ 和点 $(x^{'}, a^{'})$ 中已有的 $Q$ 值视为迭代步 $t$ 时的值，即已知 $Q_t(x,a),Q_t(x',a')$ 。

进行策略评估更新：由式(16.86)【西瓜书式(16.31)】求 $Q_{t+1}(x,a)$ ，即更新 $Q (x, a)$ ，第6句。

5.改进策略： $\pi (x)=\mathop{\arg\max}\limits_{a''\in A}Q(x,a'')$ ，第7句。

6.更新起点为 $x^{'}$ ，即 $x := x^{'}$ （丢弃已有的 $x'\to a'$ ），第8句。

7.回到2.继续循环（第3-9句），直至结束条件满足。

观察两算法的轨线中的策略，Sara算法中采样时涉及一个策略： $a'=\pi ^{\epsilon }(x')$ （本轮循环中的采样）和 $a = a^{'}$ （使用上一轮的采样），故为同策略算法；
Q-学习算法中涉及两个策略： $a=\pi ^{\epsilon }(x)$ 和 $a'=\pi (x')$ ，故为异策略算法。