model free Temporal-Difference Learning-prediction

爱宇小菜涛

已于 2023-12-25 14:13:06 修改

阅读量967

点赞数 18

分类专栏：强化学习文章标签：人工智能笔记

于 2023-12-24 23:22:17 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_66988867/article/details/135187712

版权

强化学习专栏收录该内容

9 篇文章

订阅专栏

文章目录

前言
Temporal-Difference Learning
总结

前言

RL学习——时序差分（TD）

Temporal-Difference Learning

时序差分是介于蒙特卡洛和动态规划之间的方法，它是免模型的，不需要马尔可夫决策过程的转移矩阵和奖励函数。此外，时序差分方法可以从不完整的回合中学习，并且结合了自举的思想。

1.特点

TD直接从经验中学习，基于model free，通过自举（bootstrapping）从不完整的episodes中学习，边采样边更新值函数。

2.MC与TD

target：根据给定的策略 $\pi$ 得到经验估计价值函数 $v_{\pi}$ 。
增量式every-visit MC方法：朝着实际回报的方向更新价值（对整个episodes求平均回报，也就是实际的回报）
在这里插入图片描述

最简单的TD（0）：朝着估计回报 $R_{t+1}+\gamma V(S_{t+1})$ 的方向更新 $V(S_t)$ ，（将episode中此刻状态的即时奖励与下一状态的值函数的和估计为回报进行更新），从TD的更新公式从可以看出，TD是结合了自举的思想（状态之间互相求得，不同状态是相互依赖的）
在这里插入图片描述

3. MC与TD优缺点：

（1）整体看

TD：每一步之后在线学习，无需等到episode结束再获得回报，能够在连续任务中学习，不要求episode必须终止
MC：只能在整个episode终止后获得回报，只适用于有终止的环境

（2）偏差与方差平衡

在这里插入图片描述
能够发现：MC具有高方差，零偏差，而TD具有低方差、存在偏差，因此TD算法对初始点比较敏感，具有较快的收敛速度，相对更高效

（3）AB状态的例子

在这里插入图片描述

从例子可以发现，TD利用了马尔可夫的性质（未来状态只取决于现在的状态，与过去的状态无关），而MC没有利用马尔可夫的性质，因此TD相比于MC在马尔可夫环境中更有效。

MC、TD、DP比较

在这里插入图片描述

4. TD

因为TD存在较大的偏差，较低的方差，而MC具有0偏差，高方差，将MC与TD结合起来便可以具有相对较低的偏差与方差，达到偏差与方差的平衡，因此引入TD $(\lambda)$ 。
n步TD定义：
在这里插入图片描述

考虑将n步内的所有所有回报采用加权的方式得到最终的回报，这样既有较低的偏差也具有较低的方差，能够达到平衡
具体做法：

总结

在这里插入图片描述

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。