蒙特卡洛价值预测

最新推荐文章于 2024-08-19 11:12:00 发布

芝士小季

最新推荐文章于 2024-08-19 11:12:00 发布

阅读量36

点赞数

分类专栏：动手学强化学习文章标签：机器学习

本文链接：https://blog.csdn.net/Demoo26/article/details/134987914

版权

动手学强化学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

本文介绍了蒙特卡洛价值预测，一种基于策略从经验片段学习的算法，它利用平均累积奖励而非期望值来估计值函数。方法适用于马尔可夫决策过程中的可分片段，不依赖于模型，但对无限或长链情况需用其他方法如时序差分学习补充。

摘要由CSDN通过智能技术生成

蒙特卡洛价值预测

蒙特卡洛价值估计

目标：从策略 $\pi$ 下的经验片段学习 $V^{\pi}$

${s^{(i)}_{0}}\xrightarrow[R^{(i)}_{1}]{a^{(i)}_{0}}{s^{(i)}_{1}}\xrightarrow[R^{(i)}_{2}]{a^{(i)}_{1}}{s^{(i)}_{2}}\xrightarrow[R^{(i)}_{3}]{a^{(i)}_{2}}{s^{(i)}_{3}}\cdots{s^{(i)}_{T}\sim\pi}$

回顾：累积奖励（return）是总折扣奖励

$G_{t}=R_{t+1}+\gamma R_{t+2}+\cdots+\gamma^{T-1}R_{T}$

回顾：值函数（value function）是期望累积奖励

$\begin{aligned} V^{\pi}(s) &= \mathbb{E}[R(s_{0})+\gamma R(s_{1})+\gamma^{2}R(s_{2})+\cdots|s_{0}=s,\pi] \\ &= \mathbb{E}[G_{t}|s_{t}=s,\pi] \\ &\simeq \frac{1}{N}\sum^{N}_{i=1}G^{(i)}_{t} \end{aligned}$

使用策略 $\pi$ 从状态 $s$ 采样N个片段
计算平均累计奖励

经验均值累计奖励

蒙特卡洛策略评估使用经验均值累计奖励而不是期望累计奖励

实现过程：使用策略 $\pi$ 采样片段

${s^{(i)}_{0}}\xrightarrow[R^{(i)}_{1}]{a^{(i)}_{0}}{s^{(i)}_{1}}\xrightarrow[R^{(i)}_{2}]{a^{(i)}_{1}}{s^{(i)}_{2}}\xrightarrow[R^{(i)}_{3}]{a^{(i)}_{2}}{s^{(i)}_{3}}\cdots{s^{(i)}_{T}\sim\pi}$

在一个片段中的每个时间步长 $t$ 的状态 $s$ 都被访问

增量计数器 $N(s)\leftarrow N(s)+1$
增量总累计奖励 $\leftarrow S(s)+G_{t}$
值被估计为累计奖励的均值 $V (s) = S (s) / N (s)$
由大数定律有

$V(s)\rightarrow V^{\pi}(s) \quad as \quad N(s) \rightarrow \infty$

增量蒙特卡洛更新

每个片段结束后逐步更新 $V (s)$
对于每个状态 $S_{t}$ 和对应累计奖励 $G_{t}$

$N(S_{t}) \leftarrow N(S_{t})+1$

$V(S_{t}) \leftarrow V(S_{t})+\frac{1}{N(S_{t})}(G_{t}-V(S_{t}))$

对于非稳定的问题（环境会随时间发生变化），我们可以跟踪一个现阶段的平均值（不考虑过久之前的片段）

$V(S_{t}) \leftarrow V(S_{t})+\alpha(G_{t}-V(S_{t}))$

$\Downarrow$

$V(S_{t}) \leftarrow (1-\alpha)V(S_{t})+\alpha G_{t}$

思路： $V(S_{t}) \simeq\frac{1}{N}\sum^{N}_{i=1}{G^{(i)}_{t}}$

实现： $V(S_{t}) \leftarrow V(S_{t})+\alpha(G_{t}-V(S_{t}))$

总结

蒙特卡洛方法：直接从经验片段进行学习
蒙特卡洛是模型无关的：未知马尔可夫决策过程的状态转移/奖励
蒙特卡洛从完整的片段中进行学习：没有使用bootstrapping的方法
蒙特卡洛采用最简单的思想：值（value）= 平均累计奖励（mean return）

只能将蒙特卡洛方法应用于可分片段的马尔可夫决策过程中
即，所有的片段都有终止状态

为什么蒙特卡洛算法只能用于可分片段的马尔可夫决策过程？

可分片段的含义是该马尔可夫决策过程长度有限，这样才能计算总折扣奖励，在实际操作中，如果遇到非常长的马尔可夫链或者无限马尔可夫链，一般使用后面的课程会提到的时序差分学习。

芝士小季

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
蒙特卡洛价值预测

直接从经验片段进行学习蒙特卡洛是模型无关的：未知马尔可夫决策过程的状态转移/奖励蒙特卡洛从完整的片段中进行学习：没有使用bootstrapping的方法蒙特卡洛采用最简单的思想：值（value）= 平均累计奖励（mean return）只能将蒙特卡洛方法应用于可分片段的马尔可夫决策过程中即，所有的片段都有终止状态。
复制链接

扫一扫