（《机器学习》完整版系列）第16章强化学习——16.3 有模型的迭代式的详细推导（并更正一些错误思路）

本文链接：https://blog.csdn.net/qiy_icbc/article/details/129789310

本篇详细推导出值函数的递归等式，称为贝尔曼方程（Bellman等式）。

有模型：
设马尔可夫决策过程（MDP）的四元组 $E=\langle X,A,P,R\rangle$ 模型已知。即机器对四元组已知或通过模拟近似已知。

迭代式

为聚焦，我们将16.1 任务与奖赏图16.3 中的表达调整为图16.5 。
图16.5 一步中的两阶段

图16.5 一步中的两阶段

再在图16.5 中再添上“奖赏”相关的内容（已知），即为图16.6 。

图16.6 MDP中的每一步

图16.6 中， $R^a_{x\rightarrow x'}$ 是指“单步”（ $x\mathop{\rightarrow}\limits^a x'$ ）所获得的奖赏。若这一步是在轨线的第 $t$ 步，为强调这一特点，引入记号
$\begin{align} r_t=R^a_{x\rightarrow x'} \tag{16.5} \end{align}$

下面重点说明 $Q^{\pi }(x,a)$ 与 $V^{\pi }(x)$ ：

它俩都是指在遵循策略 ${\pi }(x)$ 下的“累积奖赏”，其区别正如图16.6 中所示， $V^{\pi }(x)$ 表示从 $x$ 出发，完成任务所获得的“累积奖赏”；而 $Q^{\pi }(x,a)$ 表示从 $x$ 出发但途径 $a$ ，完成任务所获得的“累积奖赏”。
将它们称为“值函数”，图中， $V^{\pi }(x)$ 位于状态 $x$ 处，故称为“状态值函数”， $Q^{\pi }(x,a)$ “状态-动作” $(x, a)$ 处，故称为“状态-动作值函数”。
它俩的计算，根据情况对应于第1节的式(16.2)、式(16.3)、式(16.4)之一。分为“ $T$ 型累积”和“ $\gamma$ 型累积”，对其添加下标表示类型。
注1：这里“ $T$ 型累积”实际上是有限步的“步均值”，其实，去掉常数因子 $\frac{1}{T}$ 变为真正的“累积均值”理论是一样的；“ $\gamma$ 型累积”是无限步的“步折扣累积”。
注2：“ $T$ 型累积”即有限步完成任务，易举出例子，如，“将步进小车开到指定的位置”；“ $\gamma$ 型累积”即无限步完成任务，不易举出例子，如，“赌徒利用 K-摇劈赌博机进行赌博”就是一例（设以赌局作为时间步，且钱有时间价值，即有折扣率 $\gamma$ ），他可以无限玩下去（假定本金不成问题，为了赚更多，他需要摸清赌博机的各参数，如，分布的期望值），当然，他可能提前终止（这时，他没有完成任务，有限步只能得出参数的估计值）。
上标 $\pi$ 表示决策过程中所采取的策略，即 $\pi(x,a)$ ，通常是优化的目标。

完成任务的每一步的“足迹”形成序列（称为链或轨线）： $x_0,x_1,x_2,\cdots ,x_T,\cdots$ ，如图16.7 所示，研究递推的技巧是考虑在轨线的左端递减，而不是考虑右端递减，这是由于右端为完成任务的终点。

i.对于“ $\gamma$ 型累积”，即
$\begin{align} & \quad \mathop{\mathbb{E} }\limits_{x_0,x_1,\cdots }(\text{无限步完成任务})\notag \\ & = \mathop{\mathbb{E} }\limits_{x_0\to x_1}\mathop{\mathbb{E} }\limits_{x_1,x_2,\cdots }(\text{第一步奖赏}+\text{无限步完成任务})\notag \\ & = \mathop{\mathbb{E} }\limits_{x_0\to x_1}\left(\text{第一步奖赏}+\mathop{\mathbb{E} }\limits_{x_1,x_2,\cdots }(\text{无限步完成任务})\right) \tag{16.6} \end{align}$

ii.对于“ $T$ 型累积”，即
$\begin{align} & \quad \mathop{\mathbb{E} }\limits_{x_0,x_1,\cdots,x_T }(\text{$T$步完成任务})\notag \\ & = \mathop{\mathbb{E} }\limits_{x_0\to x_1}\mathop{\mathbb{E} }\limits_{x_1,x_2,\cdots,x_T }(\text{第一步奖赏}+\text{$T-1$步完成任务})\notag \\ & = \mathop{\mathbb{E} }\limits_{x_0\to x_1}\left(\text{第一步奖赏}+\mathop{\mathbb{E} }\limits_{x_1,x_2,\cdots,x_T }(\text{$T-1$步完成任务})\right) \tag{16.7} \end{align}$
注： $T - 1$ 步完成任务的起点为 $x_1$ ，由马尔可夫链的性质知，状态 $x_0$ 并不对 $x_1$ 后的动作决策产生影响，即（1）过去对未来不产生影响（ $x_0$ 只影响 $x_1$ ，不影响其后）；（2）未来对当前不产生影响（不存在逆影响），体现在式子的可“分解”： $\mathop{\mathbb{E} }\limits_{x_0,x_1,\cdots,x_T }=\mathop{\mathbb{E} }\limits_{x_0\to x_1}\mathop{\mathbb{E} }\limits_{x_1,x_2,\cdots,x_T }$ 。
图16.7 足迹序列

图16.7 足迹序列

错误的递推式
$\begin{align} & \quad \mathop{\mathbb{E} }\limits_{x_0,x_1,\cdots,x_T }(\text{$T$步完成任务})\notag \\ & = \mathop{\mathbb{E} }\limits_{x_0,x_1,\cdots,x_T }(\text{$T-1$步完成任务}+\text{最后一步奖赏})\notag \\ & = \mathop{\mathbb{E} }\limits_{x_0,x_1,\cdots,x_{T-1}}(\text{$T-1$步完成任务})+\mathop{\mathbb{E} }\limits_{x_{T-1}\to x_T}(\text{最后一步奖赏}) \tag{16.8} \end{align}$
第一个等式中定义的是“ $x_{T}=\text{完成态}$ ”，起点为 $x_0$ ，第二个等式中又定义“ $x_{T-1}=\text{完成态}$ ”，起点也为 $x_0$ ，因此是错误的。这类常见错误是在递推过程中将“完成态”作为动点（既可为 $x_{T}$ ，又可为 $x_{T-1}$ ），而将“起点”作为“不动点”。

严格来讲，“ $T$ 型”模型中统一规定了
$\begin{align} \begin{cases} \text{终点$x_T=$完成态} \\ \text{最后一步${x_{T-1}\to x_T}$“强制”完成任务} \\ \text{直接定义了最后一步的$r_T$} \\ \end{cases} \tag{16.9} \end{align}$
其中，“完成态”定义于系统外且唯一的不动点（地平线），由“强制”性知，最后一步 $x_{T-1}\to x_T$ 中决策 $\pi$ 和转移概率 $P$ 均失效（故可将“完成态”放到系统外），因此只需单独定义这一步的值 $r_T$ ，对所有 $x$ 都考虑作为 $x_{T-1}$ 情况，这时， $r_T$ 转化为只与 $x$ 有关，记为 $r (x)$ ，式(16.9)变为
$\begin{align} \begin{cases} x\to\, \text{完成态} \\ \text{定义了$r(x)$} \\ \end{cases} \tag{16.10} \end{align}$
即“ $x\to\, \text{完成态}$ ”这一步不用决策，而是“强制”地到达，其“强制”成本的负值（或倒数）就作为奖赏 $r (x)$ ，例如，以“步进小车开到指定的位置”作为任务，以其位置作为状态，当小车已在指定位置时，成本为0；当小车与指定的位置有一格的距离时，一步到达的成本为1；当小车与指定的位置有二格的距离时，一步到达的成本为2； $\cdots$ 。也就是说，根据环境对所有状态定义一遍成本（或奖赏）。

现在考虑“ $T$ 型”模型轨线（足迹序列）的“步均奖赏”，设第 $t$ 步的奖赏 $r_t$ 为 $x_{t-1}\to x_t$ 的一步奖赏，在策略 $\pi$ 下，起点为 $x$ 链长为 $T$ 步，“步均奖赏”为 $V^{\pi}_T(x)$ 。

先看一步完成：“ ${x_{T-1}\to x_T}$ ”，根据式(16.10)有
$\begin{align} V^{\pi}_1(x)=r(x) \tag{16.11} \end{align}$
这也可以作为状态-值函数改进序列 $V_s^{\pi}(x)$ 的初始化。

再看起点为 $x_0=x$ 长度为 $T$ 的轨线的“步均奖赏”情况
$\begin{align} V^{\pi}_T(x) & =\mathop{\mathbb{E} }\limits_{\pi }\left(\frac{1}{T}[\sum_{t=1}^Tr_t]_{x_0=x}\right) \tag{16.12} \\ & =\mathop{\mathbb{E} }\limits_{x_0,x_1,\cdots,x_T }\left(\frac{1}{T}[r_1(x_0)+\sum_{t=2}^Tr_t]_{x_0=x}\right)\notag \\ & =\mathop{\mathbb{E} }\limits_{x_0\to x_1}\mathop{\mathbb{E} }\limits_{x_1,x_2,\cdots,x_T }\left(\frac{1}{T}r_1(x_0)+\frac{1}{T}\sum_{t=2}^Tr_t\right)_{x_0=x}\notag \\ & =\mathop{\mathbb{E} }\limits_{x_0\to x_1 }\left(\frac{1}{T}\mathop{\mathbb{E} }\limits_{x_1,\cdots,x_T }r_1(x_0)+\frac{{T-1}}{T}\mathop{\mathbb{E} }\limits_{x_1,x_2,\cdots,x_T }\left(\frac{1}{T-1}[\sum_{t=2}^Tr_t]_{x_1}\right)\right)_{(x_0=x)}\notag \\ & =\mathop{\mathbb{E} }\limits_{x_0\to x_1 }\left(\frac{1}{T}r_1(x_0)+\frac{T-1}{T}V^{\pi}_{T-1}(x_1)\right)_{(x_0=x)} \tag{16.13} \\ & =\mathop{\mathbb{E} }\limits_{x_0\mathop{\to }\limits_{a} x' }\left(\frac{1}{T}r_1(x_0)+\frac{T-1}{T}V^{\pi}_{T-1}(x')\right)_{(x_0=x)}\notag \\ & =\sum_{a\in A}\pi (x,a) \sum_{x'\in A}P^a_{x\rightarrow x'}\left(\frac{1}{T}R^a_{x\to x'}+\frac{T-1}{T}V^{\pi}_{T-1}(x')\right) \tag{16.14} \end{align}$
其中，式(16.12)即为【西瓜书式(16.5)第一式】，式(16.14)即为【西瓜书式(16.7)】。

可以按该思路推导 $V^{\pi }_{\gamma}(x)$ 的递推式【西瓜书式(16.8)】，为扩展思路，这里我们再以一种新方法对 $V^{\pi }_{\gamma}(x)$ 的递推式进行推导。

对于固定的策略 $\pi$ ，每个状态 $x$ 都有对应的“状态值函数”的值 $V^{\pi}(x)$ ，这些值是离散的，即有集合 $\{V^{\pi}(x)\}_{x\in X}$ ，对应于“足迹”序列，也有“状态值函数”的值序列，即图16.6 对应有图16.8 。
图16.8 “状态值函数”的值序列

图16.8 “状态值函数”的值序列

图16.8 中，由状态转移（ $x\rightarrow x'$ ）的两阶段概率可以得到 $V^{\pi}(x)$ 转移至 $V^{\pi}(x')$ 的概率为 $\pi (x,a)\times P^a_{x\rightarrow x'}$ 。因此，可视为“状态值函数”值 $\{V^{\pi}(x)\}_{x\in X}$ 间的转移。故此，可将图16.8 简化为图16.9 。

图16.9 “状态值函数”值间的转移

“状态值函数” $V^{\pi}(x)$ 定义为状态 $x$ 处的“累积奖赏”，这里是形式化的思考，如果不打折的话，无限步的"和"为无穷大，没有意义；另外，式(16.7)是反向累积，即在 $x$ 处完成工作的报酬为在 $x^{'}$ 处完成工作的报酬加上多了第一步的工作（ $x\rightarrow x'$ ）的报酬。

即有
$\begin{align} V^{\pi}(x) & = \mathop{\mathbb{E} }\limits_{(x\to a)\times (a\to x')}(R^a_{x\rightarrow x'}+V^{\pi}(x'))\notag \\ & =\sum_{a,x'}\pi (x,a)\times P^a_{x\rightarrow x'}(R^a_{x\rightarrow x'}+V^{\pi}(x'))\notag \\ & =\sum_{a\in A}\pi (x,a) \sum_{x'\in A}P^a_{x\rightarrow x'}(R^a_{x\rightarrow x'}+V^{\pi}(x')) \tag{16.15} \end{align}$

从 $x$ 出发比从 $x^{'}$ 出发多了一步（ $x\rightarrow x'$ ），若采用“ $\gamma$ 折扣累积奖赏”，则由16.1 任务与奖赏图(16.4)将 $V^{\pi}(x')$ 折为现值 $V^{\pi}(x')\gamma ^1$ ，故式(16.15)调整为式(16.16)
$\begin{align} V^{\pi}_{\gamma}(x) & =\sum_{a\in A}\pi (x,a) \sum_{x'\in A}P^a_{x\rightarrow x'}(R^a_{x\rightarrow x'}+\gamma V^{\pi}_{\gamma}(x')) \tag{16.16} \end{align}$
这即为【西瓜书式(16.8)】，它是关于 $x$ 的函数，该式中 $x$ 为外部给定的（言下之意： $x$ 在式子外变化（自变量），而 $x^{'}$ 在式中变化并被“和号”消去（局部变量））。

【西瓜书式(16.7)(16.8)】是值函数的递归等式，称为贝尔曼方程（Bellman等式）。
注：Bellman方程通常指离散时间最优化问题的动态规划方程，借助数学的不动点理论，可以严格地证明Bellman方程（簇）中存在唯一的最优方程，即【西瓜书 (16.13)】【西瓜书 (16.15)】，另外，对于连续时间最优化问题，有相应的HJB方程（Hamilton-Jacobi-Bellman Equation）。

由图16.6 有
$\begin{align} V^{\pi}(x) & =\sum_{a\in A}\pi (x,a) Q^{\pi}(x,a) \tag{16.17} \end{align}$
式(16.17)中取 $T$ 型和 $\gamma$ 型，则有
$\begin{align} \begin{cases} V^{\pi}_{T}(x) & =\sum_{a\in A}\pi (x,a) Q^{\pi}_{T}(x,a) \\ V^{\pi}_{\gamma}(x) & =\sum_{a\in A}\pi (x,a) Q^{\pi}_{\gamma}(x,a) \\ \end{cases} \tag{16.18} \end{align}$
比较式(16.18)与式(16.16)，得
$\begin{align} Q^{\pi}_{\gamma}(x,a) & = \sum_{x'\in A}P^a_{x\rightarrow x'}(R^a_{x\rightarrow x'}+\gamma V^{\pi}_{\gamma}(x')) \tag{16.19} \end{align}$
这即【西瓜书式(16.10)的第二式】，同理可得【西瓜书式(16.10)的第一式】，即由状态值函数的迭代式得到了状态-动作值函数的迭代式【西瓜书式(16.10)】。

固定策略 $\pi$ 下，对于每一个状态 $x$ 只有一个 $V^{\pi}_{\gamma}(x)$ ，因为， $1+\infty =\infty$ ，但却有许多 $V^{\pi}_{T}(x)$ ：对每一个 $T$ 都有一个 $V^{\pi}_{T}(x)$ 。
$T$ 比 $T - 1$ 多一步，感觉 $V^{\pi}_{T}(x)\geqslant V^{\pi}_{T-1}(x)$ ，但这是不对的（并不是按“多劳多得”，而是按“完成任务”，故它俩应得奖赏近似），因为：
$\begin{align} V^{\pi}_T(x)-V^{\pi}_{T-1}(x) & =\mathop{\mathbb{E} }\limits_{\pi }\left(\frac{1}{T}\sum_{t=1}^Tr_t-\frac{1}{T-1}\sum_{t=1}^{T-1}r_t\right)_{x_0=x}\notag \\ & =\mathop{\mathbb{E} }\limits_{\pi }\left(\left(\frac{1}{T}-\frac{1}{T-1}\right)\sum_{t=1}^{T-1}r_t+\frac{1}{T}r_T\right)_{x_0=x}\notag \\ & =\mathop{\mathbb{E} }\limits_{\pi }\left(\frac{-1}{T(T-1)}\sum_{t=1}^{T-1}r_t+\frac{1}{T}r_T\right)_{x_0=x}\notag \\ & =\frac{1}{T}\mathop{\mathbb{E} }\limits_{\pi }\left(\frac{-1}{(T-1)}\sum_{t=1}^{T-1}r_t+r_T\right)_{x_0=x} \tag{16.20} \\ & =\frac{1}{T}\left(\frac{-1}{(T-1)}\sum_{t=1}^{T-1}\mathop{\mathbb{E} }\limits_{\pi }r_t+\mathop{\mathbb{E} }\limits_{x_T }r_T\right)_{x_0=x}\notag \\ & =\frac{1}{T}\left(-\bar {r}_{1\to (T-1)}+\bar {r}_{T}\right)_{x_0=x}\quad \text {（头上戴帽表示均值）}\notag \\ & \approx \frac{1}{T}\times 0\notag \\ & =0 \tag{16.21} \end{align}$