蒙地卡罗（MC）算法

最新推荐文章于 2024-07-22 09:16:52 发布

waski

最新推荐文章于 2024-07-22 09:16:52 发布

阅读量188

点赞数

分类专栏：强化学习文章标签：机器学习人工智能 Powered by 金山文档

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/waski/article/details/129232573

版权

强化学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

我们把智能体放到环境的任意状态；

从这个状态开始按照策略进行选择动作，并进入新的状态。

重复步骤2，直到最终状态；

我们从最终状态开始向前回溯：计算每个状态的G值。

重复1-4多次，然后平均每个状态的G值，这就是我们需要求的V值。

第一步，我们根据策略往前走，一直走到最后，期间我们什么都不用算，还需要记录每一个状态转移，我们获得多少奖励r即可。

第二步，我们从终点往前走，一遍走一遍计算G值。G值等于上一个状态的G值(记作G'),乘以一定的折扣(gamma),再加上r。

G的意义：在某个路径上，状态S到最终状态的总收获。

V和G的关系：V是G的平均数。

由于策略改变，经过某条路径的概率就会产生变化。因此最终试验经过的次数就不一样了。

缺点：

每一次游戏，都需要先从头走到尾，再进行回溯更新。如果最终状态很难达到，那小猴子可能每一次都要转很久很久才能更新一次G值。

如何解决：

时序差分(TD)算法

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
蒙地卡罗（MC）算法

1. 我们把智能体放到环境的任意状态；2. 从这个状态开始按照策略进行选择动作，并进入新的状态。3. 重复步骤2，直到最终状态；4. 我们从最终状态开始向前回溯：计算每个状态的G值。5. 重复1-4多次，然后平均每个状态的G值，这就是我们需要求的V值。
复制链接

扫一扫

专栏目录

waski CSDN认证博客专家 CSDN认证企业博客

码龄3年

26: 原创

117万+: 周排名

8万+: 总排名

2万+: 访问

: 等级

616: 积分

311: 粉丝

356: 获赞

8: 评论

424: 收藏

私信

关注

热门文章

分类专栏

最新评论

【ECMAScript笔记一】初识JavaScript、变量的使用、数据类型包括哪些？
CSDN-Ada助手: 恭喜你写了第17篇博客！初识JavaScript、变量的使用、数据类型包括哪些？这个话题确实很有深度，你已经做得非常好了。接下来，希望你可以继续深挖JavaScript的知识，比如控制流、函数、DOM操作等等，这些内容也是非常重要的。期待你的下一篇博客！加油！
【ECMAScript笔记二】运算符分类，流程控制（顺序结构、分支结构、循环结构）
CSDN-Ada助手: 恭喜您写了第18篇博客！标题看起来非常有深度，涵盖了JavaScript中的运算符分类和流程控制的三种结构。我很喜欢您对这些概念进行详细解释的方式。不仅如此，您还将它们分成了顺序结构、分支结构和循环结构三个部分，这对读者来说一定非常有帮助。在下一步的创作中，我建议您可以考虑添加一些实例或者案例来帮助读者更好地理解这些概念。这样的话，读者们可以通过实际的代码运行来加深对这些结构的理解。同时，如果您能分享一些实际应用中的注意事项或者技巧，也会给读者带来更多的启发。再次恭喜您的持续创作，期待您的下一篇博客！谦虚地说，您的博客为我们提供了很多有价值的知识。加油！
【语义分割】12个主流算法架构介绍、数据集推荐、总结、挑战和未来发展
CSDN-Ada助手: 恭喜您撰写了第16篇博客！标题看起来非常吸引人，您不仅介绍了12个主流算法架构，还提供了数据集推荐、总结以及对挑战和未来发展的见解。这样的内容对于在语义分割领域的读者来说一定非常有价值。您的博客展示了您对语义分割算法的深入研究，并且以简洁明了的方式将这些信息传达给读者。我非常期待您接下来的创作。或许在未来的博客中，您可以深入探讨某个特定算法的细节，或者分享一些实际应用中的案例和经验。这样的内容将进一步丰富您的博客并吸引更多读者。谦虚地说，我相信您的博客在不断进步中。请继续保持努力，坚持分享您的知识和见解，我期待着您未来的创作！
【CSS学习笔记八】用户界面优化（鼠标样式、去掉表单轮廓...）、CSS初始化
CSDN-Ada助手: 恭喜你写了第14篇博客！看到你对用户界面优化和CSS初始化的学习笔记，让我受益匪浅。希望你能继续保持创作的热情，分享更多关于前端开发的知识和经验。下一步，可以考虑分享一些实际项目中遇到的问题和解决方案，或者是对一些前沿技术的探讨和研究。期待你的下一篇作品！
【CSS学习笔记六】遵循原则、定位（五种模式：静态、相对、绝对、固定、粘性定位）
CSDN-Ada助手: 恭喜你写了第12篇博客！标题看起来很有趣，尤其是你提到了CSS的定位模式。我很期待阅读你的学习笔记，因为定位在CSS中是一个相对复杂的概念。不过，我建议你在深入探讨每种定位模式的同时，可以结合实例或者案例来说明它们的具体应用场景。这样可以让读者更加容易理解和运用。加油！期待你的下一篇创作。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

waski 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。