为什么时序差分是动态规划和蒙特卡罗的结合

最新推荐文章于 2024-08-02 21:59:33 发布

海晨威

最新推荐文章于 2024-08-02 21:59:33 发布

阅读量2.7k

点赞数 2

分类专栏：强化学习强化学习中的小思考文章标签：时序差分动态规划蒙特卡洛强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/songyunli1111/article/details/80656320

版权

动态规划虽有效但需已知状态转换概率，实际应用受限。蒙特卡洛通过大量采样估计期望值，但更新慢。时序差分结合两者，无需状态转换概率，单步更新提升效率，通过采样学习，适应未知环境，强化学习中的关键方法。

摘要由CSDN通过智能技术生成

动态规划的优势：在已知状态转换概率和回报函数的情况下，不需要与环境的交互，直接通过策略迭代或值迭代方法得到最优策略。

动态规划的劣势：但实际情况下，环境的状态转换概率通常是未知的，因此该方法并不实际可行。

动态规划分析：虽然动态规划并不实际可行，但重要的是它的思想：用空间换时间，存储每个状态的值函数（也就是Q表），并利用后继状态的值函数估计当前值函数，这样就实现了单步更新，提升了更新的效率，也是时序差分借鉴的地方

蒙特卡洛的优势：在不知道状态转换概率的情况下，通过经验平均去估计状态的期望值函数，经验也即是采样或实验，利用当前策略进行很多次试验，每次试验都是从任意的初始状态开始直到终止状态，当采样的次数足够的多（保证每一个可能的状态-动作都能被采样到）时，就可以最大程度的逼近状态的真实期望值函数。

蒙特卡洛的劣势：因为它用的是值函数的原始定义：即从状态s到终态的累计奖赏，因为它必须到达终态才能得到状态s的值函数，因此更新过程非常缓慢，学习效率不高。

蒙特卡洛分析：因为它是通过采样的方法去估计状态的期望值函数，不需要知道状态转换概率，更符合实际情况，这里的采样其实也就是为什么说强化学习是试错学习，为什么要和环境交互的原因。试错就是采样之后，环境给出奖惩信息，说明在当前状态下执行该动作的好坏，并会在最后的值函数中得到体现。

怎么结合&

最低0.47元/天解锁文章

关注

2
点赞
踩
12

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

海晨威 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。