（《机器学习》完整版系列）第16章强化学习——16.4 有模型策略估值算法

人工干智能

已于 2023-03-31 11:17:49 修改

阅读量111

点赞数

分类专栏：周志华【西瓜书】辅导《机器学习》文章标签：算法概率论机器学习

于 2023-03-27 10:51:22 首次发布

本文链接：https://blog.csdn.net/qiy_icbc/article/details/129790648

版权

周志华【西瓜书】辅导同时被 2 个专栏收录

143 篇文章 24 订阅

订阅专栏

《机器学习》

143 篇文章 5 订阅

订阅专栏

已知策略，计算执行该策略获得的（平均）奖赏，即是策略估值，本篇利用Bellman等式【西瓜书式(16.7)(16.8)】进行策略估值。

策略估值算法

已知策略 $\pi$ ，计算执行该策略获得的（平均）奖赏，即是策略估值，下面我们利用Bellman等式【西瓜书式(16.7)(16.8)】（它是递归等式，16.3 有模型迭代式的详细推导）进行策略估值：

（1）基于 $T$ 步累积奖赏的策略估值算法

由 $T$ 步累积奖赏的递推式【西瓜书式(16.7)】（它是基于链长度的递进： $(T-1)\to T$ ），可以从右边的 $\{V^{\pi}_{T-1}(x')\}_{x'\in X}$ 导出左边的 $\{V_T^{\pi}(x)\}_{x\in X}$ ，调整一下下标字母，即从 $\{V^{\pi}_{t-1}(x)\}_{x\in X}$ 导出 $\{V_t^{\pi}(x)\}_{x\in X}$ ，即
$\begin{align} V^{\pi}_t(x) & =\sum_{a\in A}\pi (x,a) \sum_{x'\in A}P^a_{x\rightarrow x'}\left(\frac{1}{t}R^a_{x\rightarrow x'}+\frac{t-1}{t}V^{\pi}_{t-1}(x')\right) \tag{16.22} \end{align}$
现在让下标 $t$ 递进变化地使用式(16.22)：

(i) 初始化： $\{V_1^{\pi}(x)\}_{x\in X}$ （针对每个状态，评估从它出发完成任务的成本来粗略定义奖赏，可以是负数）.

(ii) 对所有 $x\in X$ 应用递推式(16.22)进行迭代，即产生序列：
$V_1^{\pi}(x), \ V_2^{\pi}(x), \ V_3^{\pi}(x),\ \cdots$

(iii) 直至 $\{V_T^{\pi}(x)\}_{x\in X}$ 终止，输出 $\{V_T^{\pi}(x)\}_{x\in X}$ 。

分别记 $V^{\pi}_{t-1}$ 为 $V$ 、 $V^{\pi}_{t}$ 为 $V^{'}$ ，上述过程整理成算法，即为【西瓜书图16.7】所示。

（2）基于 $\gamma$ 折扣累积奖赏的策略估值算法

我们引入迭代步记号 $s$ ，
将式(16.16)视为运行一迭代步“ $s\rightarrow s+1$ ”，即将它调整为式(16.23)
$\begin{align} V^{\pi}_{\gamma,s+1}(x) & =\sum_{a\in A}\pi (x,a) \sum_{x'\in A}P^a_{x\rightarrow x'}\left(R^a_{x\rightarrow x'}+\gamma V^{\pi}_{\gamma,s}(x')\right) \tag{16.23} \end{align}$

由式(16.23)，可以从右边的 $\{V^{\pi}_{\gamma,s}(x')\}_{x'\in X}$ 导出左边的 $\{V^{\pi}_{\gamma,s+1}(x)\}_{x\in X}$ ，
由此有

(i) 初始化： $\{V^{\pi}_{\gamma,1}(x)\}_{x\in X}$ 全为0（注意与“ $T$ 型”模型不同：（1）这里的 $V^{\pi}_{\gamma,1}$ 仍是无限步，因 $V^{\pi}_{\gamma,s}$ 是无限步， $V^{\pi}_{\gamma,1}$ 是 $V^{\pi}_{\gamma,s}$ 的尾巴，当然有无限长；（2）当 $s$ 很大时，由迭代式(16.23)知，相关项 $\gamma^s V^{\pi}_{\gamma,1}(x)$ 对 $V^{\pi}_{\gamma,s+1}(x)$ 影响很小，即在折扣 $\gamma$ 下，遥远未来的值折现几乎为0，故不妨直接设为0）.

(ii) 对所有 $x\in X$ 应用递推式(16.23)进行迭代，依次得到
$V_{\gamma,1}^{\pi}(x), \ V_{\gamma,2}^{\pi}(x), \ V_{\gamma,3}^{\pi}(x), \ V_{\gamma,4}^{\pi}(x),\ \cdots$

(iii) 直至值的增长小于给定的阈值：
$\mathop{\max}\limits_{x \in X}|V^{\pi}_{\gamma,s+1}(x)-V^{\pi}_{\gamma,s}(x)|<\theta$
则终止算法，输出 $\{V^{\pi}_{\gamma,s+1}(x)\}_{x\in X}$ 。

即该算法框架符合【西瓜书图16.7】所示。

注意：对策略进行估值并不需要做蒙特卡罗试验，只需利用Bellman等式，依它的递归关系反复计算直至收敛即可。

另外，一种常见的错误思路：使用式(16.16)运行步进行“ $x\rightarrow x'$ ”迭代，即
$\begin{align} V^{\pi}_{\gamma}(x) & =\sum_{a\in A}\pi (x,a) \sum_{x'\in A}P^a_{x\rightarrow x'}(R^a_{x\rightarrow x'}+\gamma \text{（对$V^{\pi}_{\gamma}(x')$运用式(16.16)）})\notag \\ & =\sum_{a\in A}\pi (x,a) \sum_{x'\in A}P^a_{x\rightarrow x'}(R^a_{x\rightarrow x'}+\gamma (\sum_{a\in A}\pi (x',a) \sum_{x''\in A}P^a_{x\rightarrow x''}(R^a_{x\rightarrow x''}+\gamma \notag \\ & \quad \quad \quad V^{\pi}_{\gamma}(x'')))\text{（对$V^{\pi}_{\gamma}(x'')$运用式(16.16)）})\notag \\ & =\cdots \tag{16.24} \end{align}$