蒙特卡罗方法

最新推荐文章于 2024-08-21 19:59:48 发布

火鸡哥

最新推荐文章于 2024-08-21 19:59:48 发布

阅读量843

点赞数

分类专栏：强化学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012587024/article/details/81361010

版权

蒙特卡罗方法

动态规划中估计的是状态值，然后通过状态值来获取动作值，但在模型末知的情况下，
智能体不知道环境的所有状态，无法对状态值进行预估，导致无法通过状态值来获取动作值，
因些在免模型的情况下，我们将估计对象从V转变为Q。

蒙特卡罗方法是在进行一个阶段的采样后再更新值函数。

通过与环境互动评估策略 $π$ 的方法分为两大类别：
异同策略方法使智能体与环境互动时遵守的策略 $π$ 与要评估（或改进）的策略相同。
离线策略方法使智能体与环境互动时遵守的策略 $b$ （其中 $b ̸ = π$ ）与要评估（或改进）的策略不同。
状态 $s \in S$ 在某个阶段中的每次出现称为 $s$ 的一次经历

1､动作值评估：
有两种类型的蒙特卡洛 (MC) 的预测方法：

首次经历 MC 将一个阶段的 $q_π(s,a)$ 估算为 $(s, a)$ 首次经历之后的平均回报（即忽略与后续经历相关的回报）；

所有经历 MC 将一个阶段的 $q_π(s,a)$ 估算为 $(s, a)$ 所有经历之后的平均回报。

$\frac{1}{k}\sum^k_{i=1}r_i$

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。