MC方法与TD方法区别

最新推荐文章于 2024-09-01 21:08:00 发布

HUST_BOOZE

最新推荐文章于 2024-09-01 21:08:00 发布

阅读量251

点赞数 5

文章标签：机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_44152415/article/details/141200953

版权

强化学习中常用的更新方法包括MC和TD

MC方法:

其更新公式为 V(s) ← V(s) + α (G – V(s))

其中G为当前状态到episode截止所有reward之和，Q-learning base 的方法经常使用MC方法来进行更新。

MC方法是一个高方差无偏差的方法：

因为其更新是使用G来更新， G是一个真实从环境的值，需要获得完整的episode之后才计算得到，但获取这一条episode本身是一个概率较小的事件，所以这是一个高方差的更新，如果G是当前状态下获取之后所有奖励的期望，那么这个公式就是偏差和方差都为0的更新，但获取G的期望是一个很难的事情，需要遍历从当前状态所有episode的可能。

TD方法：

V(s)← V(s) + α (r + V(s’) – V(s))

在A2C算法中，critic采用上面的公式进更新，可以看到TD的更新方式使用估计值V(s’) + r 代替了G，所以TD是一个有偏的方法，从s到s’是一个概率较大的事件相较于MC方法获取整条序列，所以说TD是一个低方差的方法。

高方差需要更多的样本来训练，偏差会导致不收敛或收敛结果较差。

上面是TD(0)的更新，TD(n)等同于MC的方法

关注

5
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
MC方法与TD方法区别

因为其更新是使用G来更新， G是一个真实从环境的值，需要获得完整的episode之后才计算得到，但获取这一条episode本身是一个概率较小的事件，所以这是一个高方差的更新，如果G是当前状态下获取之后所有奖励的期望，那么这个公式就是偏差和方差都为0的更新，但获取G的期望是一个很难的事情，需要遍历从当前状态所有episode的可能。其中G为当前状态到episode截止所有reward之和，Q-learning base 的方法经常使用MC方法来进行更新。上面是TD(0)的更新，TD(n)等同于MC的方法。
复制链接

扫一扫

HUST_BOOZE CSDN认证博客专家 CSDN认证企业博客

码龄6年

9: 原创

107万+: 周排名

10万+: 总排名

4024: 访问

: 等级

128: 积分

13: 粉丝

34: 获赞

4: 评论

23: 收藏

私信

关注

热门文章

最新评论

“from torch._C import * ImportError: DLL load failed: 找不到指定的程序”
CSDN-Ada助手: 恭喜您写下了第5篇博客！看到您遇到了“from torch._C import * ImportError: DLL load failed: 找不到指定的程序”的问题，我想分享一些建议。首先，这个错误可能是由于缺少某个程序或者库文件所致。您可以尝试重新安装Torch或者检查您的环境设置，确保所有的依赖项都正确安装。另外，我建议您在博客中详细描述您遇到的问题和解决过程，这样可以帮助更多遇到相同问题的读者。继续保持创作，并期待您下一篇博客的发布！
Tensorboard 奇怪错误解决 ‘utf-8‘ codec can‘t decode byte 0xd6
Sua Sua: 成功了！感谢
Tensorboard 奇怪错误解决 ‘utf-8‘ codec can‘t decode byte 0xd6
weixin_52160759: 已经成功三Q
SummaryWriter 打不开log问题
CSDN-Ada助手: 恭喜您又写了一篇博客！看到您遇到的问题，我觉得可以尝试检查一下SummaryWriter的参数设置，或者查看一下是否有其他程序占用了相同的端口。希望我的建议能帮到您，期待您的下一篇博客！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply3
Tensorboard 奇怪错误解决 ‘utf-8‘ codec can‘t decode byte 0xd6
CSDN-Ada助手: 很棒的博客！你的解决方法非常实用，相信会对遇到同样问题的人很有帮助。除了解决这个具体问题，我认为还有一些和Tensorboard相关的知识值得探索，比如如何可视化模型训练过程中的变化，如何使用Tensorboard进行调试等等。希望你能继续分享你的经验和学习成果，让我们一起在AI领域不断进步！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。