强化学习中用时序差分TD估计状态V值

最新推荐文章于 2024-05-30 20:21:25 发布

自动驾驶小小小白

最新推荐文章于 2024-05-30 20:21:25 发布

阅读量52

点赞数

分类专栏：深度学习强化学习小白入门文章标签：自动驾驶深度学习概率论机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_54618081/article/details/131860811

版权

深度学习强化学习小白入门专栏收录该内容

4 篇文章 0 订阅

订阅专栏

在将时序差分之前我们先说一下蒙地卡罗算法的缺点

1.在复杂环境下终点很难达到，此时蒙地卡罗算法就不太适用了

2.在动态环境下蒙地卡罗算法会失效

蒙地卡罗具体可以看我之前的文章https://blog.csdn.net/m0_54618081/article/details/131860296

因为蒙地卡罗的以上缺点我们引出时序差分算法（TD）

时序差分法

时序差分法和蒙地卡罗法最大的不同就是时序差分法不用走到终点，可以在任何点进行回溯，此时用回溯状态点的预估V加上之前实际走过的G就可以得到这个路径上的估计V

这就有点像从山顶像知道要下山的路有多长。 MC能直接走一趟，看一下到底有多远。 TD则轻巧一点，先走一段路看一下，看一下有没有路牌指示到山脚还有多远。如果有，那么就把刚刚走的那段路加上路牌指示到山脚的距离相加即可。但又同学可能会问，在一开始，我们根本没有路牌呀，所以也不知道到底到山脚有多远。没错，这是对的。但当我们走很多次的时候，路牌系统就能慢慢建立起来。例如第一次，只有到了山脚，我才知道山脚前一站离山脚的的真实距离。于是我更新了山脚前一站的路牌。第二次，我在山脚前一站路就能看到路牌，所以我就可以更新山脚前一站的路牌了...一直到山顶，就这样一直建立整座山的路牌系统。

TD更厉害的是，在很多时候，我们并不需要一直到最后，我们可以先用后面的估算，然后调整当前状态。

自动驾驶小小小白

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
强化学习中用时序差分TD估计状态V值

在将时序差分之前我们先说一下蒙地卡罗算法的缺点1.在复杂环境下终点很难达到，此时蒙地卡罗算法就不太适用了2.在动态环境下蒙地卡罗算法会失效蒙地卡罗具体可以看我之前的文章因为蒙地卡罗的以上缺点我们引出时序差分算法（TD）
复制链接

扫一扫

专栏目录

自动驾驶小小小白 CSDN认证博客专家 CSDN认证企业博客

码龄3年

8: 原创

109万+: 周排名

10万+: 总排名

3030: 访问

: 等级

136: 积分

48: 粉丝

55: 获赞

6: 评论

69: 收藏

私信

关注

热门文章

分类专栏

深度学习强化学习小白入门 4篇

最新评论

UniAD 论文解释 && 思路
CSDN-Ada助手: 恭喜您写了第6篇博客！看到您分享的UniAD论文解释和思路，让我受益匪浅。希望您能继续保持创作的热情和努力，为大家带来更多有价值的内容。在下一步的创作中，或许可以尝试探讨一些与UniAD相关的实际案例或者应用场景，让读者更加深入地了解这个主题。期待您的下一篇博客，加油！
27. 移除元素
CSDN-Ada助手: 不知道算法技能树是否可以帮到你：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm
Launch 文件格式及编写实例
CSDN-Ada助手: 恭喜你开始博客创作！你的标题“Launch 文件格式及编写实例”非常吸引人。对于初次写博客的你来说，这篇文章已经很不错了。接下来，我建议你可以深入探讨一下Launch文件格式的具体细节，例如如何编写一个完整的Launch文件和其中各个元素的作用等等。希望你能继续保持这种积极的创作态度，期待你未来更多精彩的博客文章！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
强化学习蒙地卡罗MC更新公式原理，通俗易懂
CSDN-Ada助手: 很高兴看到你写了第二篇博客！你的标题和摘要很吸引人，对强化学习蒙地卡罗MC更新公式的原理进行通俗易懂的解释，这对读者来说是非常有帮助的。继续创作下去，你的文章一定能帮助更多人理解这个复杂的概念。关于与博文相关的扩展知识和技能，我想提醒你一些可能没有在标题和摘要中出现的内容。首先，你可以介绍一下强化学习的应用领域，例如机器人控制、自动驾驶等。其次，你可以探讨一下蒙特卡罗方法在其他领域的应用，比如金融、天气预测等。最后，你可以展示一些实际案例，说明蒙特卡罗方法在解决实际问题中的效果。希望以上的建议能对你有所帮助。继续努力，加油！期待看到更多精彩的文章。如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
强化学习中用时序差分TD估计状态V值
CSDN-Ada助手: 恭喜你写了第三篇博客！标题中提到的使用时序差分TD估计状态V值的方法在强化学习中确实非常重要。你的文章内容对这个方法进行了详细的介绍吗？如果是的话，我希望能够读到更多关于该方法的具体应用场景和实例。如果还没有包含这些内容，我建议你在下一篇博客中可以分享一些具体的应用案例，这样读者能更好地理解和应用这个方法。继续努力，期待你的下一篇博客！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。