强化学习之经验均值累计奖励（蒙特卡罗方法）与期望累计奖励（马尔科夫决策过程）的区别

最新推荐文章于 2023-08-07 08:11:41 发布

@开水白菜

最新推荐文章于 2023-08-07 08:11:41 发布

阅读量2.5k

点赞数

分类专栏：算法强化学习文章标签：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Mrsgflmx/article/details/108853534

版权

算法同时被 2 个专栏收录

15 篇文章 0 订阅

订阅专栏

14 篇文章 0 订阅

订阅专栏

以求圆形面积为例
在这里插入图片描述

一、期望累计奖励：也就是已知概率求均值

如果把累计奖励
在这里插入图片描述
视为在概率空间中的一个随机变量 X ，假设对应每个 x1 , x2 , x3 , … 的值出现的概率为 p1 , p2 , p3 , … , 那么 X 的期望值 E[X] 的定义应为

在这里插入图片描述

则圆形的面积为（虽然是放屁脱裤子——多此一举，但希望你能get到 “ 已知模型后再去求值 ” 的点）
在这里插入图片描述

也就是已知模型后再去求值，也就是马尔可夫决策过程（MDP）。
但在这里，这个“期望的” 累计奖励难以直接计算，因为在现实中，通常没有明确地给出状态转移和奖励函数。

二、经验均值累计奖励

假如我们进行了 N 次随机采样，每次采样得到的累计奖励结果为 G_t^(i) , i = 1 , 2 , … , N , 那么这个经验平均累计奖励可以写成
在这里插入图片描述
则圆形的面积为

当采样的次数足够多时，我们就使用这样一个 “ 经验平均累计奖励” 来逼近 “期望累计奖励”。
也就是通过随机采样的 “经验平均” 来估计期望值，也就是蒙特卡洛法。即模型无关的强化学习直接从经验中学习值和策略，而无需构建马尔可夫决策过程（MDP）。

。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。。

如果大家喜欢这篇文章的话，希望大家收藏、转发、关注、评论、点赞，转载请注明出自这里。 PS：本随笔属个人学习小结，文中内容有参考互联网上的相关文章。如果您博文的链接被我引用，我承诺不会参杂经济利益；如果有版权纠纷，请私信留言。其中如果发现文中有不正确的认知或遗漏的地方请评论告知，谢谢！还是那句话：不是我喜欢copy，是站在巨人的肩膀上~~

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
强化学习之经验均值累计奖励（蒙特卡罗方法）与期望累计奖励（马尔科夫决策过程）的区别

以求圆形面积为例一、期望累计奖励：也就是已知概率求均值S=Pirr也就是已知模型后再去求值，也就是马尔可夫过程（MDP）。二、经验均值累计奖励
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。