（《机器学习》完整版系列）第16章强化学习——16.7 同策略蒙特卡罗强化学习

人工干智能

已于 2023-03-31 11:21:57 修改

阅读量155

点赞数

分类专栏：周志华【西瓜书】辅导《机器学习》文章标签：机器学习算法人工智能

于 2023-03-27 16:43:05 首次发布

本文链接：https://blog.csdn.net/qiy_icbc/article/details/129798369

版权

周志华【西瓜书】辅导同时被 2 个专栏收录

143 篇文章 29 订阅

订阅专栏

《机器学习》

143 篇文章 5 订阅

订阅专栏

提示：自由地执行一次长度为TT蒙特卡罗试验（并不限定起点），就可以依迭代式对该试验轨线上所有点作一次更新，依结果，对策略进行一次优化。
将ϵ-贪心算法修改为同策略蒙特卡罗强化学习算法

免模型学习

在有模型时，依赖模型进行“计算”即可以进行策略优化，现实中大多情况是模型没有显式化，如，你不知道转移概率的表达式，也就是说，这时没有显式的模型可依赖了，因此，需要借助蒙特卡罗试验揭示背后隐藏的规律。

若要借助“有模型”的成果，可以采取两步法：1、先学习出一个模型：使用随机策略进行采样，得到样本集，估计出转移函数和奖赏函数，即训练一个初始的模型；2、使用有模型的强化学习方法继续训练。但这两步法的两步是割裂的，因此，进一步发展出免模型强化学习。

同策略蒙特卡罗强化学习

设“从 $x_0,a_0)$ 出发，由于这里是讨论 $Q$ 值，故我们以 $x_i,a_i)$ 为点，而不是以 $x_i)$ 为点，且起点为 $x_0,a_0)$ ，依策略执行 $T$ 步，第 $T$ 步强制完成任务（参见式(16.9)）”为一次蒙特卡罗试验，共进行了 $m$ 次，第 $s$ 次产生的轨线（后续称为轨线 $s$ ）为
$\begin{align} (x_0,a_0)\mathop{\longrightarrow }\limits^{r_1^s}(x_1^s,a_1^s)\mathop{\longrightarrow }\limits^{r_2^s}(x_2^s,a_2^s)\mathop{\longrightarrow }\limits^{r_3^s}\cdots\mathop{\longrightarrow }\limits^{r_T^s}(x_T^s,a_T^s) \tag{16.47} \end{align}$
其中， $r_t^s$ 为第 $t$ 步的奖赏，由策略的随机性知它是个随机变量。

以 $m$ 次轨线的平均作为期望的近似，即
$\begin{align} Q_m(x_0,a_0) %&\doteq \frac{1}{m}\sum_{s=1}^mQ^{\pi }_{s,T}(x_0,a_0)\notag\\ & =\frac{1}{m}\sum_{s=1}^m\left(\frac{1}{T}\sum_{i=1}^Tr_i^s\right)\text{（由【西瓜书式(16.6)第一式】）}\notag \\ & =\frac{1}{m}\sum_{s=1}^mR_s \tag{16.48} \end{align}$
其中
$\begin{align} R_s=\frac{1}{T}\sum_{i=1}^Tr_i^s \tag{16.49} \end{align}$
即为轨线 $s$ 的每步平均奖赏。

对比式(16.48)与【西瓜书式(16.1)】，故有与【西瓜书式(16.2)】对应的递推式
$\begin{align} \begin{cases} Q_s(x_0,a_0)=\frac{(s-1)Q_{s-1}(x_0,a_0)+R_s}{s} \\ R_s=\frac{1}{T}\sum_{i=1}^Tr_i^s \\ \end{cases} \tag{16.50} \end{align}$

即增加第 $s$ 条轨线（如式(16.47)所示，它的起点为 $x_0,a_0)$ ），这时依式(16.50)更新 $Q_s(x_0,a_0)$ ，在此之前，起点为 $x_0,a_0)$ 已有 $s - 1$ 条轨线（即已计算出式(16.50)右侧的 $Q_{s-1}(x_0,a_0)$ ），逐步增加轨线数，迭代式(16.50)逼近最优值 $Q(x_0,a_0)$ 。

值 $Q(x_0,a_0)$ ：开始有初始值0，随后若有轨线经过（可能是轨线的起点，也可能是轨线中途经过的点），则轨线经过一次更新一次，由此得到当前值。
现在将“起点 $x_0,a_0)$ 已有 $s - 1$ 条轨线及 $Q_{s-1}(x_0,a_0)$ ”改为“将点 $x_0,a_0)$ 处的当前值 $Q(x_0,a_0)$ 视为 $Q_{s-1}(x_0,a_0)$ ”，仍用式(16.50)迭代，得到该点的新 $Q(x_0,a_0)$ 。
如何计算轨线式(16.47)上的 $Q(x_1,a_1)$ 呢？

轨线式(16.47)中从 $x_1,a_1)$ 开始的之后部分可视为“从 $x_1,a_1)$ 出发，执行策略 $T - 1$ 步”的一次蒙特卡罗试验，仿上述方法（只需调整起始点和步数），即得 $Q(x_1,a_1)$ 的递推式
$\begin{align} \begin{cases} Q_s(x_1,a_1)=\frac{(s-1)Q_{s-1}(x_1,a_1)+R^s_{T-1}}{s} \\ R^s_{T-1}=\frac{1}{T-1}\sum_{i=2}^Tr_i^s \\ \end{cases} \tag{16.51} \end{align}$

同样可得 $Q(x_2,a_2)\cdots$ 的递推式，归纳到一般，轨线式(16.47)上 $Q(x_t,a_t)$ 的递推式为
$\begin{align} \begin{cases} Q_s(x_t,a_t)=\frac{(s-1)Q_{s-1}(x_t,a_t)+R^s_{T-t}}{s} \\ R^s_{T-t}=\frac{1}{T-t}\sum_{i=1+t}^Tr_i^s \\ \end{cases} \tag{16.52} \end{align}$
其中， $t=0,1,2,\cdots,{T-1}$ ，而 $Q_{s-1}(x_t,a_t)$ 指轨线 $s$ 上 $x_t,a_t)$ 处当前的值，更新后为 $Q_{s}(x_t,a_t)$ 。

综上，自由地执行一次长度为 $T$ 蒙特卡罗试验（并不限定起点），就可以依迭代式(16.52)对该试验轨线 $s$ 式(16.47)上所有点作一次更新，用程序语言表达即为【西瓜书图16.10】的第4-8句。

设每执行一次蒙特卡罗试验并更新该轨线上的 $Q(x_t,a_t)$ 后，对策略进行一次优化（【西瓜书图16.10】的第9句），优化方法为 $\epsilon$ -贪心算法【西瓜书图16.4】，即对已探索部分采取策略 $\pi ^\epsilon(x)$ （【西瓜书式(16.20)】所定义）。

该 $\epsilon$ -贪心算法可以这样简单地实现【西瓜书图16.4】：
对 $A$ 中的 $a$ 进行编号： $a_1,a_2,\cdots,a_{|A|}$ ，将[0,1]区间进行 $∣ A ∣$ 等分，在[0,1]区间中任取两随机数 $\mathrm{rand} 1(),\ \mathrm{rand} 2()$ （均匀分布），令
$\begin{align} \pi ^\epsilon(x)= \begin{cases} \mathop{\arg\max}\limits_{a\in A}Q(x,a) & \quad \text{（当$\mathrm{rand} 1()>1-\epsilon$）} \\ a_i & \quad \text{（否则，当$\mathrm{rand} 2()$落入第$i$个小区间时）} \\ \end{cases} \tag{16.53} \end{align}$
其中，第二种情况对各 $a_i$ 按仍均匀分布选取，也有可能取到最优 $a$ ，综合两种情况，即取 $\mathop{\arg\max}\limits_{a\in A}Q(x,a)$ 的概率为 $1-\epsilon+\frac{\epsilon}{|A|}$ （若取 $\mathop{\arg\max}\limits_{a\in A}Q(x,a)$ 的概率为 $1-\epsilon$ ，则程序设计稍复杂），转换一个写法，即
$\begin{align} \pi ^\epsilon(x,a)= \begin{cases} 1-\epsilon+\frac{\epsilon}{|A|} \quad \text{（当$a=\mathop{\arg\max}\limits_{a\in A}Q(x,a)$）} \\ \frac{\epsilon}{|A|}\quad \text{（当$a\neq \mathop{\arg\max}\limits_{a\in A}Q(x,a)$）} \\ \end{cases} \tag{16.54} \end{align}$

将 $\epsilon$ -贪心算法【西瓜书图16.4】修改为同策略蒙特卡罗强化学习算法【西瓜书图16.10】：

(i) 初始化，第1句；

(ii) 循环体中优化，第2-10句；

$\quad$ (ii.1) 依蒙特卡罗方法新增一条长度为 $T$ 的轨线，第3句；

$\quad$ (ii.2) 更新该新轨线上点的 $Q(x_t,a_t)$ ，即进行策略评估（依策略计算值 $V$ 或 $Q$ ，常称为策略评估，例如【西瓜书图16.7】的策略评估算法），第4-8句；

$\quad$ (ii.3) 对新轨线经过的点 $x$ ，依 $\pi ^\epsilon$ 更新其策略 $\pi (x)$ ，第9句；

(iii) 输出策略 $\pi (x)$ 。

本文为原创，您可以：

点赞（支持博主）
收藏（待以后看）
转发（他考研或学习，正需要）
评论（或讨论）
引用（支持原创）
不侵权

上一篇：16.6 策略迭代与值迭代算法
下一篇：16.8 异策略蒙特卡罗强化学习算法（换分布）

人工干智能

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
（《机器学习》完整版系列）第16章强化学习——16.7 同策略蒙特卡罗强化学习

自由地执行一次长度为TT蒙特卡罗试验（并不限定起点），就可以依迭代式对该试验轨线上所有点作一次更新，依结果，对策略进行一次优化。将ϵ-贪心算法修改为同策略蒙特卡罗强化学习算法
复制链接

扫一扫