时序差分(TD)算法:

最新推荐文章于 2024-09-16 20:05:17 发布

waski

最新推荐文章于 2024-09-16 20:05:17 发布

阅读量348

点赞数

分类专栏：强化学习文章标签：人工智能机器学习 Powered by 金山文档

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/waski/article/details/129232627

版权

强化学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

TD算法：

小猴子每走1步，看一下这个路口的V值，还有获得的奖励r；

回到原来的路口，把刚刚看到的V值和奖励r进行运算，估算出V值。

和蒙地卡罗(MC)不同：TD算法只需要走N步。就可以开始回溯更新。

和蒙地卡罗(MC)一样：小猴需要先走N步，每经过一个状态，把奖励记录下来。然后开始回溯。

那么，状态的V值怎么算呢？其实和蒙地卡罗一样，我们就假设N步之后，就到达了最终状态了。

假设“最终状态”上我们之前没有走过，所以这个状态上的纸是空白的。这个时候我们就当这个状态为0

假设“最终状态”上我们已经走过了，这个状态的V值，就是当前值。然后我们开始回溯。

在TD(0)中，使用下一状态的V，加上状态转移的R作为更新目标！

TD更厉害的是，在很多时候，我们并不需要一直到最后，我们可以先用后面的估算，然后调整当前状态。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

waski CSDN认证博客专家 CSDN认证企业博客

码龄3年

26: 原创

117万+: 周排名

15万+: 总排名

3万+: 访问

: 等级

621: 积分

329: 粉丝

359: 获赞

8: 评论

469: 收藏

私信

关注

热门文章

分类专栏

最新评论

【ECMAScript笔记一】初识JavaScript、变量的使用、数据类型包括哪些？
CSDN-Ada助手: 恭喜你写了第17篇博客！初识JavaScript、变量的使用、数据类型包括哪些？这个话题确实很有深度，你已经做得非常好了。接下来，希望你可以继续深挖JavaScript的知识，比如控制流、函数、DOM操作等等，这些内容也是非常重要的。期待你的下一篇博客！加油！
【ECMAScript笔记二】运算符分类，流程控制（顺序结构、分支结构、循环结构）
CSDN-Ada助手: 恭喜您写了第18篇博客！标题看起来非常有深度，涵盖了JavaScript中的运算符分类和流程控制的三种结构。我很喜欢您对这些概念进行详细解释的方式。不仅如此，您还将它们分成了顺序结构、分支结构和循环结构三个部分，这对读者来说一定非常有帮助。在下一步的创作中，我建议您可以考虑添加一些实例或者案例来帮助读者更好地理解这些概念。这样的话，读者们可以通过实际的代码运行来加深对这些结构的理解。同时，如果您能分享一些实际应用中的注意事项或者技巧，也会给读者带来更多的启发。再次恭喜您的持续创作，期待您的下一篇博客！谦虚地说，您的博客为我们提供了很多有价值的知识。加油！
【语义分割】12个主流算法架构介绍、数据集推荐、总结、挑战和未来发展
CSDN-Ada助手: 恭喜您撰写了第16篇博客！标题看起来非常吸引人，您不仅介绍了12个主流算法架构，还提供了数据集推荐、总结以及对挑战和未来发展的见解。这样的内容对于在语义分割领域的读者来说一定非常有价值。您的博客展示了您对语义分割算法的深入研究，并且以简洁明了的方式将这些信息传达给读者。我非常期待您接下来的创作。或许在未来的博客中，您可以深入探讨某个特定算法的细节，或者分享一些实际应用中的案例和经验。这样的内容将进一步丰富您的博客并吸引更多读者。谦虚地说，我相信您的博客在不断进步中。请继续保持努力，坚持分享您的知识和见解，我期待着您未来的创作！
【CSS学习笔记八】用户界面优化（鼠标样式、去掉表单轮廓...）、CSS初始化
CSDN-Ada助手: 恭喜你写了第14篇博客！看到你对用户界面优化和CSS初始化的学习笔记，让我受益匪浅。希望你能继续保持创作的热情，分享更多关于前端开发的知识和经验。下一步，可以考虑分享一些实际项目中遇到的问题和解决方案，或者是对一些前沿技术的探讨和研究。期待你的下一篇作品！
【CSS学习笔记六】遵循原则、定位（五种模式：静态、相对、绝对、固定、粘性定位）
CSDN-Ada助手: 恭喜你写了第12篇博客！标题看起来很有趣，尤其是你提到了CSS的定位模式。我很期待阅读你的学习笔记，因为定位在CSS中是一个相对复杂的概念。不过，我建议你在深入探讨每种定位模式的同时，可以结合实例或者案例来说明它们的具体应用场景。这样可以让读者更加容易理解和运用。加油！期待你的下一篇创作。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

waski 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。