时序差分学习

最新推荐文章于 2025-02-10 18:51:29 发布

reargarden

最新推荐文章于 2025-02-10 18:51:29 发布

阅读量1.7k

点赞数

分类专栏：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_34719975/article/details/81736743

版权

时序差分学习（TD）是强化学习中关键的方法，融合了蒙特卡洛方法和动态规划的特点。TD方法能从经验中直接学习，无需环境模型，且能以自举方式更新估计值。本文深入讲解了TD预测，包括TD（0）的最优性，Sarsa和Q-learning等在线、离策略TD控制方法，强调了它们在解决强化学习问题中的应用和优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第六章时序差分学习

如果非要说一个强化学习中最核心并且新奇的方法，那么时序差分学习毫无疑问就是那种方法。TD方法是蒙特卡洛方法和动态规划思想的结合。所以TD方法有两个特点：一是可以直接从经验中学习，不需要环境模型；二是TD方法根据其他的估计来更新估计，也就是自举。时序差分学习，蒙特卡洛方法和动态规划三者之间关系的比较是强化学习中贯穿始终的主题。

6.1 TD预测

（1）Constant-α MC方法：

特点：1·常量α适合动态性问题 2，必须等到这一幕执行完成(得到Gt)才能进行估计。

（2）最简单的TD方法：

特点：只需要等一步，需要Rt+1 和V（St+1）的数值，Rt+1+rV(St+1)作为target对原有值函数进行更新。

下面是TD（0）程序框架：

从已学知识我们知道：

蒙特卡洛方法之所以是估计值是因为它利用采样的返回作为真实期望返回值。动态规划之所以说是自举方法是因为它利用V（St+1）的现有估计值，而不是真正的V（St+1）。而时序差分方法既有DP方法中的自举，又有蒙特卡洛方法中的采样。

TD error：

TD error 是指估计值和现有值之间的偏差。如果在一个片段中，值函数始终没有发生变化，那么蒙特卡洛误差可以用TD error来表示：

6.2 TD预测方法的优点

相对于DP方法来说，TD方法的优点是它不需要环境模型，不需要回报和下一个状态的可能性分配。

相对于蒙特卡罗方法，TD方法的优点是它能在线，以增量的方式学习。而蒙特卡洛方法只能

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。