（《机器学习》完整版系列）第16章强化学习——16.5 策略改进（单调递增有界序列必收敛）

本文链接：https://blog.csdn.net/qiy_icbc/article/details/129791374

有模型策略估值算法可得到所有状态在给定策略下的值，这样就可以对多个策略进行比较选优，不断地调整策略，使其达到最优。
方法：构造出“勉强”的单调递增有界序列（对应策略序列），利用单调递增有界序列必收敛的定理进行推导。

策略改进

上篇16.4 有模型策略估值算法中用策略估值算法可得到所有状态 $x$ 在策略 $\pi$ 下的 $\{V^{\pi }(x)\}_{x\in A}$ ，就可以对多个策略进行比较选优，下面讨论最优策略算法，即调整策略 $\pi$ ，使其达到最优。

最优策略的目标是“状态值的均值”（奖赏均值）最大化
$\begin{align} \mathop{\max}\limits_{\pi}\mathop{\mathbb{E} }\limits_{x\in X}V^{\pi }(x) \tag{16.25} \end{align}$

在状态有限且各状态等概率地作为出发点 $x_0$ 的条件下，式(16.25)化为
$\begin{align} \mathop{\max}\limits_{\pi}\frac{1}{|X|}\sum_{x\in X}V^{\pi }(x) \tag{16.26} \end{align}$
这时，最优策略为
$\begin{align} \pi ^{*} & =\mathop{\arg\max}\limits_{\pi}\frac{1}{|X|}\sum_{x\in X}V^{\pi }(x)\notag \\ & =\mathop{\arg\max}\limits_{\pi}\sum_{x\in X}V^{\pi }(x) \tag{16.27} \end{align}$
由于可能会有等值情况（类似于投票时，出现相同票数），故式(16.27)的解 $\pi ^{*}$ 可以不唯一。

将 $\pi ^{*}$ 取代式(16.17)中的 $\pi$ ，则有
$\begin{align} V^{\pi ^{*}}(x) & =\sum_{a\in A}\pi ^{*}(x,a) Q^{\pi ^{*}}(x,a)\notag \\ & \leqslant \sum_{a\in A}\pi ^{*}(x,a) Q^{\pi ^{*}}(x,a^*)\quad \text{（取$a^*=\mathop{\arg\max}\limits_{a\in A}Q^{\pi ^{*}}(x,a)$）} \tag{16.28} \\ & = Q^{\pi ^{*}}(x,a^*)\sum_{a\in A}\pi ^{*}(x,a)\notag \\ & = Q^{\pi ^{*}}(x,a^*)\notag \\ & = \mathop{\max}\limits_{a\in A}Q^{\pi ^{*}}(x,a) \tag{16.29} \end{align}$
由于最优 $V^{\pi ^{*}}(x)$ 已经达到了最大值，故不等式(16.28)实为等式（否则右则更优），将上标“ ${\pi ^{*}}$ ”简记为“ $*$ ”，则有
$\begin{align} V^{{*}}(x) & = \mathop{\max}\limits_{a\in A}Q^{{*}}(x,a) \tag{16.30} \end{align}$

将式(16.30)代入【西瓜书式(16.10)】右侧（用 $\pi ^{*}$ 取代 $\pi$ 后），则得最优状态-动作值函数等式【西瓜书式(16.15)】。反过来，将【西瓜书式(16.10)】（用 $\pi ^{*}$ 取代 $\pi$ 后）代入式(16.30)右侧，则得最优状态值函数等式【西瓜书式(16.13)】。

最优值函数的等式（【西瓜书式(16.13)】【西瓜书式(16.15)】）称为最优Bellman等式。显然，给定 $\pi ^{*}$ 后，最优值函数是唯一确定的，而反之，式(16.27)告诉我们 $\pi ^{*}$ 可能不唯一。

最优Bellman等式的另一个推导思路：

假定已计算出所有点处的步数为 $T - 1$ 的最优值 $V^*_{T-1}(x')$ ，则由【西瓜书式(16.7)】有
$\begin{align} V^*_T(x) & =\sum_{a\in A}\pi ^*(x,a) \sum_{x'\in A}P^a_{x\rightarrow x'}\left(\frac{1}{T}R^a_{x\rightarrow x'}+\frac{T-1}{T}V^*_{T-1}(x')\right)\notag \\ & \leqslant \sum_{a\in A}\pi ^*(x,a) \mathop{\max}\limits_{a\in A} \sum_{x'\in A}P^a_{x\rightarrow x'}\left(\frac{1}{T}R^a_{x\rightarrow x'}+\frac{T-1}{T}V^*_{T-1}(x')\right)\notag \\ & = \mathop{\max}\limits_{a\in A} \sum_{x'\in A}P^a_{x\rightarrow x'}\left(\frac{1}{T}R^a_{x\rightarrow x'}+\frac{T-1}{T}V^*_{T-1}(x')\right)\sum_{a\in A}\pi ^*(x,a) \notag \\ & = \mathop{\max}\limits_{a\in A} \sum_{x'\in A}P^a_{x\rightarrow x'}\left(\frac{1}{T}R^a_{x\rightarrow x'}+\frac{T-1}{T}V^*_{T-1}(x')\right) \tag{16.31} \end{align}$
再由 $V^*_T(x)$ 的最优性（最大）知，式(16.31)应取等号，这即证【西瓜书式(16.13)】第一式；同样，由【西瓜书式(16.8)】，从最优值 $V^*_{\gamma ,+\infty }(x')$ 递推出最优值 $V^*_{\gamma ,+\infty+1 }(x)$ ，类似即证【西瓜书式(16.13)】第二式。

最优Bellman等式只是：在已知最优策略 $\pi ^{*}$ 的情况下，求最优值函数 $V^*$ 和 $Q^*$ 的递推方法。那么，如何利用它求最优策略 $\pi ^{*}$ ？方法就是：把最优Bellman等式作为检验策略是否最优的判别式，即最优策略应满足
$\begin{align} V^{\pi ^*}_T(x) & = \mathop{\max}\limits_{a\in A} \sum_{x'\in A}P^a_{x\rightarrow x'}\left(\frac{1}{T}R^a_{x\rightarrow x'}+\frac{T-1}{T}V^{\pi ^*}_{T-1}(x')\right) \tag{16.32} \end{align}$
然后，参照式(16.32)的结构，构造一个关于策略改进的递推式（ $\pi \to \pi '$ ）
$\begin{align} V^{\pi '}_T(x) & = \mathop{\max}\limits_{a\in A} \sum_{x'\in A}P^a_{x\rightarrow x'}\left(\frac{1}{T}R^a_{x\rightarrow x'}+\frac{T-1}{T}V^{\pi }_{T-1}(x')\right)\notag \\ & = \sum_{x'\in A}P^{a'}_{x\rightarrow x'}\left(\frac{1}{T}R^{a'}_{x\rightarrow x'}+\frac{T-1}{T}V^{\pi }_{T-1}(x')\right) \tag{16.33} \end{align}$
其中， $a'=\pi '(x)$ ，改善
$\begin{align} \pi '(x) & =\mathop{\arg\max}\limits_{a\in A}\sum_{x'\in A}P^a_{x\rightarrow x'}\left(\frac{1}{T}R^a_{x\rightarrow x'}+\frac{T-1}{T}V^{\pi }_{T-1}(x')\right) \tag{16.34} \end{align}$
由【西瓜书式(16.10)】，式(16.34)变为
$\begin{align} a'=\pi '(x)=\mathop{\arg\max}\limits_{a\in A}Q^{\pi }(x,a) \tag{16.35} \end{align}$
其中， $Q$ 为 $Q_T$ 或 $Q_{\gamma }$ （对应于 $V_T$ 和 $V_{\gamma }$ ）。

在此新策略 $\pi '$ 下，16.3 有模型迭代式的详细推导图16.6 变为图16.10 ，其中保留权重最大的一支（ $x\to a'$ ），删除其他分枝（类似于剪枝）。
图16.10 新策略下状态转移

图16.10 新策略$\pi '$下状态转移

由此可知，基于已知的随机策略 $\pi$ （16.3 有模型迭代式的详细推导图16.6 ）的改进策略 $\pi '$ （图16.10 ）是确定性策略。
即这时相当于16.3 有模型迭代式的详细推导图16.6 中有
$\begin{align} \pi '(x,a)= \begin{cases} 1,\quad \text{（$a=a'$）} \\ 0,\quad \text{（$a\neq a'$）} \end{cases} \tag{16.36} \end{align}$
其中， $a^{'}$ 由式(16.35)定义。

当 $T$ 较大时，从 $x^{'}$ 出发的 $T$ 步值 $V^{\pi }_{T}(x')$ 与 $T - 1$ 步值 $V^{\pi }_{T-1}(x')$ 近似。观察式(16.33)： $a^{'}$ 由式(16.35)中 $x$ 确定， $x^{'}$ 由“和”消去（即它为局部变量）， $x$ 为自变量，包含两个递进（ $T-1\to T$ ， $\pi \to \pi '$ ），因此，应消去递进（ $T-1\to T$ ），保留需要的递进（ $\pi \to \pi '$ ），由式(16.21)知取近似合理。
因此，式(16.33)调整为
$\begin{align} V_T^{\pi '}(x) & = \sum_{x'\in A}P^{a'}_{x\rightarrow x'}\left(\frac{1}{T}R^{a'}_{x\rightarrow x'}+\frac{T-1}{T}V_T^{\pi }(x')\right) \tag{16.37} \end{align}$
这就是一个“ $T$ 型累积”的策略改进的递推式（ $\pi \to \pi '$ ）。

对应的“ $\gamma$ 型累积”的策略改进的递推式为
$\begin{align} V_{\gamma}^{\pi '}(x) & = \sum_{x'\in A}P^{a'}_{x\rightarrow x'}(R^{a'}_{x\rightarrow x'}+{\gamma}V_{\gamma}^{\pi }(x')) \tag{16.38} \end{align}$
策略改进序列如图16.11 所示。
在这里插入图片描述

图16.11 策略改进序列

下面我们证明单调性 $V_{\gamma}^{\pi }(x)\leqslant V_{\gamma}^{\pi '}(x)$ ：
$\begin{align} V_{\gamma}^{\pi }(x) & =\sum_{a\in A}\pi (x,a) Q^{\pi}_{\gamma}(x,a)\quad \text{（由式(16.17)）}\notag \\ & \leqslant\sum_{a\in A}\pi (x,a) Q^{\pi}_{\gamma}(x,a')\quad \text{（由式(16.35)）}\notag \\ & =Q^{\pi}_{\gamma}(x,a')\sum_{a\in A}\pi (x,a)\notag \\ & = Q^{\pi }_{\gamma}(x,a')\notag \\ & =\sum_{x'\in A}P^{a'}_{x\rightarrow x'}\left(R^{a'}_{x\rightarrow x'}+{\gamma}V^{\pi }_{\gamma}(x')\right) \quad \text{（由【西瓜书式(16.10)】）}\notag \\ & =V_{\gamma}^{\pi '}(x)\quad \text{（由式(16.38)）} \tag{16.39} \end{align}$

由式(16.39)知，值函数序列（右上角编号对应于策略 $\pi$ 的改进序列 $\pi_1, \pi_2,\pi_3,\cdots$ ）
$\begin{align} V_{\gamma }^{1}(x),V_{\gamma }^{2}(x),V_{\gamma }^{3}(x),\cdots \tag{16.40} \end{align}$
是单调递增。

设 $R_{\max}=\mathop{\max }\limits_{x\in X } (R^a_{x \to x'})$ ，有
$\begin{align} V_{\gamma}^{\pi }(x) & =\mathop{\mathbb{E} }\limits_{\pi}\sum_{t=0}^\infty \gamma ^t r_{t+1}\notag \\ & =\mathop{\mathbb{E} }\limits_{\pi}\sum_{t=0}^\infty \gamma ^t \left(\sum_{a\in A}\pi (x_t,a) \sum_{x_{t+1}\in A}P^a_{x_t\rightarrow x_{t+1}}R^a_{x_t\rightarrow x_{t+1}}\right)\notag \\ & \leqslant \mathop{\mathbb{E} }\limits_{\pi}\sum_{t=0}^\infty \gamma ^t \left(\sum_{a\in A}\pi (x_t,a) \sum_{x_{t+1}\in A}P^a_{x_t\rightarrow x_{t+1}}R_{\max}\right)\notag \\ & = \mathop{\mathbb{E} }\limits_{\pi}\sum_{t=0}^\infty \gamma ^t R_{\max}\notag \\ & = R_{\max}\sum_{t=0}^\infty \gamma ^t \notag \\ & =\frac{R_{\max}}{1-\gamma} \tag{16.41} \end{align}$
由式(16.41)知它有界。

数学上已知：单调递增有界序列必收敛，故序列(16.40)收敛，从而对应的策略改进序列也收敛，对式(16.33)中的策略取极限，即得到（满足）最优Bellman等式。

同样，得到 $V_{T}^{\pi}$ 型中策略的改进式也为式(16.35)。

也可以证明它是有界的：

设 $R_{\max}=\mathop{\max }\limits_{x\in X } (R^a_{x \to x'},V^{\pi}_1(x))$ ，则 $V^{\pi}_1(x)\leqslant R_{\max}$

若假设 $V^{\pi}_{K-1}(x)\leqslant R_{\max}$ ，则
$\begin{align} V^{\pi}_K(x) & =\sum_{a\in A}\pi (x,a) \sum_{x'\in A}P^a_{x\rightarrow x'}\left(\frac{1}{K}R^a_{x\to x'}+\frac{K-1}{K}V^{\pi}_{K-1}(x')\right)\notag \\ & \leqslant \sum_{a\in A}\pi (x,a) \sum_{x'\in A}P^a_{x\rightarrow x'}\left(\frac{1}{K}R_{\max}+\frac{K-1}{K}V^{\pi}_{K-1}(x')\right)\notag \\ & = \frac{1}{K}R_{\max}+\sum_{a\in A}\pi (x,a) \sum_{x'\in A}P^a_{x\rightarrow x'}\left(\frac{K-1}{K}V^{\pi}_{K-1}(x')\right)\notag \\ & \leqslant \frac{1}{K}R_{\max}+\sum_{a\in A}\pi (x,a) \sum_{x'\in A}P^a_{x\rightarrow x'}\left(\frac{K-1}{K}R_{\max}\right)\quad \text{（由数学归纳法假设）}\notag \\ & = \frac{1}{K}R_{\max}+\frac{K-1}{K}R_{\max}\notag \\ & = R_{\max}(x) \tag{16.42} \end{align}$
由式(16.42)及数学归纳法原理，故 $V^{\pi}_T(x)$ 有界。

然而，改进序列的单调递增性有些“勉强”：
$\begin{align} V_{T}^{\pi }(x) & =\sum_{a\in A}\pi (x,a) Q^{\pi}_{T}(x,a)\quad \text{（由式(16.17)）}\notag \\ & \leqslant\sum_{a\in A}\pi (x,a) Q^{\pi}_{T}(x,a')\quad \text{（由式(16.35)）} \tag{16.43} \\ & =Q^{\pi}_{T}(x,a')\sum_{a\in A}\pi (x,a)\notag \\ & = Q^{\pi }_{T}(x,a')\notag \\ & =\sum_{x'\in A}P^{a'}_{x\rightarrow x'}\left(\frac{1}{T}R^{a'}_{x\rightarrow x'}+\frac{T-1}{T}V^{\pi '}_{T-1}(x')\right) \quad \text{（由【西瓜书式(16.10)】）}\notag \\ & \approx \sum_{x'\in A}P^{a'}_{x\rightarrow x'}\left(\frac{1}{T}R^{a'}_{x\rightarrow x'}+\frac{T-1}{T}V^{\pi '}_{T}(x')\right)\quad \text{（由式(16.21)）} \tag{16.44} \\ & =V_{T}^{\pi '}(x)\quad \text{（由式(16.37)）} \tag{16.45} \end{align}$
当式(16.44)的“ $\approx$ ”变为“ $\geqslant$ ”且“压过”式(16.43)的“ $\leqslant$ ”时，有 $V_{T}^{\pi }(x)\geqslant V_{T}^{\pi '}(x)$ ，即这时 $V_{T}^{\pi }(x)\leqslant V_{T}^{\pi '}(x)$ 不成立，如 $(V_{T}^{\pi }(x)=)\ 1.001\leqslant 1.002\approx 1\ (=V_{T}^{\pi '}(x))$ ，这说明单调递增性有些“勉强”。但在绝大多数情况下，式(16.43)的“ $\leqslant$ ”会“压过”式(16.44)的“ $\approx$ ”的，故可视为单调递增性成立，从而可应用“单调有界序列必收敛（有极限）”。