深入理解强化学习——马尔可夫决策过程：马尔可夫奖励过程-[计算马尔可夫奖励过程价值的蒙特卡洛方法]

最新推荐文章于 2024-05-15 13:43:49 发布

von Neumann

最新推荐文章于 2024-05-15 13:43:49 发布

阅读量516

点赞数 5

分类专栏：深入理解强化学习文章标签：人工智能强化学习深度强化学习马尔可夫决策过程马尔可夫奖励过程马尔可夫过程马尔科夫决策过程

本文链接：https://blog.csdn.net/hy592070616/article/details/134449855

版权

深入理解强化学习专栏收录该内容

59 篇文章 18 订阅

订阅专栏

文章《[深入理解强化学习——马尔可夫决策过程：马尔可夫奖励过程-[贝尔曼方程]]](https://machinelearning.blog.csdn.net/article/details/134407229)》介绍了计算马尔可夫奖励过程价值的解析方法，但解析解的计算复杂度是 $O(n^3)$ ，其中 $n$ 是状态个数，因此这种方法只适用很小的马尔可夫奖励过程。求解较大规模的马尔可夫奖励过程中的价值函数时，可以使用动态规划（Dynamic Programming）算法、蒙特卡洛方法（Monte-Carlo Method）和时序差分（Temporal Difference）算法（动态规划和蒙特卡洛方法的一个结合）。

首先我们用蒙特卡洛方法来计算价值。如下文所示，蒙特卡洛方法就是当得到一个马尔可夫奖励过程后，我们可以从某个状态开始，把小船放到状态转移矩阵里面，让它“随波逐流”，这样就会产生一个轨迹。产生一个轨迹之后，就会得到一个奖励，那么直接把折扣的奖励即回报 $g$ 算出来。算出来之后将它积累起来，得到回报 $G_t$ 。当积累了一定数量的轨迹之后，我们直接用 $G_t$ 除以轨迹数量，就会得到某个状态的价值。

蒙特卡洛方法来计算价值
输入：随机产生轨迹的个数 $N$
(1) $i=0; G_t=0$
(2) while $\ \ i\neq N$
(3) $\quad$ 从状态 $s$ 和时刻 $t$ 开始生成一个轨迹
(4) $\quad$ 使用生成的轨迹计算回报： $g=\sum_{i=t}^{H-1}\gamma^{i-t}r_i$
(5) $\quad G_t=G_t+g$
(6) $\quad i = i + 1$
(7) $V_t(s)=\frac{G_t}{N}$

比如我们要计算 $s_1$ 状态的价值，可以从 $s_1$ 状态开始，随机产生很多轨迹。把小船放到状态转移矩阵里面，然后它就会“随波逐流”，产生轨迹。每个轨迹都会得到一个回报，我们得到大量的回报，比如1000个回报，然后直接取平均值，就可以等价于现在 $s_1$ 的价值，因为 $s_1$ 的价值 $V_t(s_1)$ 定义了我们未来可能得到多少的奖励。这就是蒙特卡洛采样的方法。

参考文献：
[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 强化学习（第2版）[M]. 电子工业出版社, 2019
[3] Maxim Lapan. 深度强化学习实践（原书第2版）[M]. 北京华章图文信息有限公司, 2021
[4] 王琦, 杨毅远, 江季. Easy RL：强化学习教程 [M]. 人民邮电出版社, 2022

von Neumann

关注

5
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
深入理解强化学习——马尔可夫决策过程：马尔可夫奖励过程-[计算马尔可夫奖励过程价值的蒙特卡洛方法]

文章《[深入理解强化学习——马尔可夫决策过程：马尔可夫奖励过程-[贝尔曼方程]]](https://machinelearning.blog.csdn.net/article/details/134407229)》介绍了计算马尔可夫奖励过程价值的解析方法，但解析解的计算复杂度是。如下文所示，蒙特卡洛方法就是当得到一个马尔可夫奖励过程后，我们可以从某个状态开始，把小船放到状态转移矩阵里面，让它“随波逐流”，这样就会产生一个轨迹。产生一个轨迹之后，就会得到一个奖励，那么直接把折扣的奖励即回报。
复制链接

扫一扫