时序差分学习(Temporal-Difference Learning)

最新推荐文章于 2024-07-01 17:10:29 发布

Mr丶Caleb

最新推荐文章于 2024-07-01 17:10:29 发布

阅读量1.5w

点赞数 6

分类专栏： Reinforcement Learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_30159351/article/details/72896220

版权

时序差分学习(Temporal-Difference Learning)结合了动态规划和蒙特卡洛方法，是强化学习的核心思想。

蒙特卡洛的方法是模拟（或者经历）一段序列，在序列结束后，根据序列上各个状态的价值，来估计状态价值。
时序差分学习是模拟（或者经历）一段序列，每行动一步（或者几步），根据新状态的价值，然后估计执行前的状态价值。
可以认为蒙特卡洛的方法是最大步数的时序差分学习。

DP，MC和TD的区别

DP：已知转移概率 p(s′,r|s,a)，Rt+1 是精确算出来的，用的 vπ(st+1) 是当前的估计值。
这里写图片描述
MC：用多个episode的 Gt˜ 近似 Gt
TD： Rt+1 和 vπ(st+1) 用的都是当前的估计值

本章介绍的是时序差分学习的单步学习方法。多步学习方法在下一章介绍。主要方法包括：

策略状态价值 vπ 的时序差分学习方法(单步\多步)
策略行动价值 qπ 的on-policy时序差分学习方法: Sarsa(单步\多步)
策略行动价值 qπ 的off-policy时序差分学习方法: Q-learning(单步)
Double Q-learning(单步)
策略行动价值 qπ 的off-policy时序差分学习方法(带importance sampling): Sarsa(多步)
策略行动价值 qπ 的off-policy时序差分学习方法(不带importance sampling): Tree Backup Algorithm(多步)
策略行动价值 qπ 的off-policy时序差分学习方法: Q(σ) (多步)

策略状态价值 vπ 的时序差分学习方法(单步\多步)

单步时序差分学习方法
这里写图片描述
该算法就通过当前状态的估计与未来估计之间差值来更新状态价值函数的。即 R+γV(S′)−V

最低0.47元/天解锁文章

关注

6
点赞
踩
28

收藏

觉得还不错? 一键收藏
0
评论
时序差分学习(Temporal-Difference Learning)

时序差分学习(Temporal-Difference Learning)结合了动态规划和蒙特卡洛方法，是强化学习的核心思想。蒙特卡洛的方法是模拟（或者经历）一段序列，在序列结束后，根据序列上各个状态的价值，来估计状态价值。时序差分学习是模拟（或者经历）一段序列，每行动一步（或者几步），根据新状态的价值，然后估计执行前的状态价值。可以认为蒙特卡洛的方法是最大步数的时序差分学习。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。