强化学习蒙地卡罗MC更新公式原理，通俗易懂

最新推荐文章于 2023-12-09 07:32:14 发布

AD小Q

最新推荐文章于 2023-12-09 07:32:14 发布

阅读量183

点赞数 1

分类专栏：深度学习强化学习小白入门文章标签：概率论深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_54618081/article/details/131860296

版权

深度学习强化学习小白入门专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1.理论基础

在学习蒙地卡罗更新公式原理之前我们要要了解一下三个理论基础

1.1 伯努利大数定理

进行N次独立重复实验，随着试验次数的增大，事件A发生的频率 $\frac{na}{N}$ 依概率收敛为事件A发生的概率 $P_{a}$

1.2 辛钦大数定理

1.3 切比雪夫大数定理

数学期望（或均值，亦简称期望）是试验中每次可能结果的概率乘以其结果的总和，是最基本的数学特征之一。它反映随机变量平均取值的大小。

2.蒙地卡罗原理

通常蒙特卡罗方法通过构造符合一定规则的随机数来解决数学上的各种问题。对于那些由于计算过于复杂而难以得到解析解或者根本没有解析解的问题，蒙特卡罗方法是一种有效的求出数值解的方法。

2.1 强化学习中蒙地卡罗的应用

我们把智能体放到环境的任意状态；
从这个状态开始按照策略进行选择动作，并进入新的状态。
重复步骤2，直到最终状态；
我们从最终状态开始向前回溯：计算每个状态的G值。
重复1-4多次，然后平均每个状态的G值，这就是我们需要求的V值。

这里我看到一篇文章写的特别好分享给大家

https://zhuanlan.zhihu.com/p/109755443

在强化学习中，我们最常接触到的两个量是Q和V，这里用蒙地卡罗的方式来估算V。

开始前我们先明确G的意义是某个状态到最终状态的一个类和。

当我们进行多次试验后，我们有可能会经过某个状态多次，通过回溯，也会有多个G值。重复我们刚才说的，每一个G值，就是每次到最终状态获得的奖励总和。而V值时候某个状态下，我们通过影分身到达最终状态，所有影分身获得的奖励的平均值。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
强化学习蒙地卡罗MC更新公式原理，通俗易懂

在学习蒙地卡罗更新公式原理之前我们要要了解一下三个理论基础。
复制链接

扫一扫

专栏目录

AD小Q CSDN认证博客专家 CSDN认证企业博客

码龄3年

9: 原创

116万+: 周排名

8万+: 总排名

4256: 访问

: 等级

170: 积分

56: 粉丝

79: 获赞

6: 评论

90: 收藏

私信

关注

热门文章

分类专栏

论文带读 1篇
深度学习强化学习小白入门 4篇

最新评论

UniAD 论文解释 && 思路
CSDN-Ada助手: 恭喜您写了第6篇博客！看到您分享的UniAD论文解释和思路，让我受益匪浅。希望您能继续保持创作的热情和努力，为大家带来更多有价值的内容。在下一步的创作中，或许可以尝试探讨一些与UniAD相关的实际案例或者应用场景，让读者更加深入地了解这个主题。期待您的下一篇博客，加油！
27. 移除元素
CSDN-Ada助手: 不知道算法技能树是否可以帮到你：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm
Launch 文件格式及编写实例
CSDN-Ada助手: 恭喜你开始博客创作！你的标题“Launch 文件格式及编写实例”非常吸引人。对于初次写博客的你来说，这篇文章已经很不错了。接下来，我建议你可以深入探讨一下Launch文件格式的具体细节，例如如何编写一个完整的Launch文件和其中各个元素的作用等等。希望你能继续保持这种积极的创作态度，期待你未来更多精彩的博客文章！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
强化学习蒙地卡罗MC更新公式原理，通俗易懂
CSDN-Ada助手: 很高兴看到你写了第二篇博客！你的标题和摘要很吸引人，对强化学习蒙地卡罗MC更新公式的原理进行通俗易懂的解释，这对读者来说是非常有帮助的。继续创作下去，你的文章一定能帮助更多人理解这个复杂的概念。关于与博文相关的扩展知识和技能，我想提醒你一些可能没有在标题和摘要中出现的内容。首先，你可以介绍一下强化学习的应用领域，例如机器人控制、自动驾驶等。其次，你可以探讨一下蒙特卡罗方法在其他领域的应用，比如金融、天气预测等。最后，你可以展示一些实际案例，说明蒙特卡罗方法在解决实际问题中的效果。希望以上的建议能对你有所帮助。继续努力，加油！期待看到更多精彩的文章。如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
强化学习中用时序差分TD估计状态V值
CSDN-Ada助手: 恭喜你写了第三篇博客！标题中提到的使用时序差分TD估计状态V值的方法在强化学习中确实非常重要。你的文章内容对这个方法进行了详细的介绍吗？如果是的话，我希望能够读到更多关于该方法的具体应用场景和实例。如果还没有包含这些内容，我建议你在下一篇博客中可以分享一些具体的应用案例，这样读者能更好地理解和应用这个方法。继续努力，期待你的下一篇博客！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。