时序差分学习

最新推荐文章于 2024-01-19 23:29:37 发布

胧月夜い

最新推荐文章于 2024-01-19 23:29:37 发布

阅读量194

点赞数

文章标签：强化学习

本文链接：https://blog.csdn.net/qq_46013251/article/details/119722974

版权

Temporal-Difference Learning

TD 预测
Sarsa： $\text{On-policy}$ TD 控制
- 例题：有风的网格世界
Q-learning： $\text{Off-policy}$ TD 控制
- 例题：悬崖行走
预期的 Sarsa
最大化偏差和双学习
参考

TD 预测

TD 和蒙特卡洛方法都使用了经验来解决预测问题
粗略地说，蒙特卡洛一直等到访问后的回报已知，接着使用该回报作为 $V(S_t)$ 的目标
一个简单的适用于非平稳环境的每次访问蒙特卡洛法是：
$V(S_t) \gets V(S_t) + \alpha [G_t - V(S_t) ]$
式中， $G_t$ 是时间 $t$ 的实际回报， $\alpha$ 是恒定的步长参数，这种方法叫做恒定 $\alpha MC$

在蒙特卡洛方法中，必须等到回合的结束才能确定 $V(S_t)$ 的增量，因为只有此时才知道 $G_t$
而 TD 方法只需要等到下一个时间步，在时间 $t + 1$ ，使用观测到的奖励 $R_{t+1}$ 和预测 $V(S_{t+1})$ 立即进行更新

最简单的 TD 方法在过渡到状态 $S_{t+1}$ 并收到奖励 $R_{t+1}$ 立即进行更新：
$V(S_t) \gets V(S_t) + \alpha [R_{t+1} + \gamma V(S_{t+1}) - V(S_t)]$

蒙特卡洛更新的目标是 $G_t$ ，而 TD 法更新的目标是 $R_{t+1} + \gamma V(S_{t+1})$
这种 TD 法叫做 TD(0) 或一步 TD

书中的伪代码：
在这里插入图片描述
因为 TD(0) 基于现有估计进行更新，所以我们把它叫做自举法

在前面我们得知：
$v_\pi(s) \doteq \mathbb{E}_\pi [G_t | S_t = s] \\[5pt] = \mathbb{E}_\pi [ R_{t+1} + \gamma G_{t+1} | S_t = s] \\[5pt] = \mathbb{E}_\pi [R_{t+1} + \gamma_\pi (S_{t+1}) | S_t = s ]$
（具体证明可以参见之前的文章）

粗略地说，蒙特卡洛法使用第一个等式的估计作为目标，而 DP 法使用第三个等式的估计作为目标
TD 法在第三个等式中对预期值进行采样，并且使用当前的估计 $V$ 而不是真实的 $v_\pi$ ，因此 TD 法将蒙特卡洛的采样和 DP 的自举相结合

最后，TD(0) 更新中，括号里的值是一种误差，衡量 $S_t$ 的估计值和更好的估计 $R_{t+1} + \gamma V(S_{t+1})$ 之间的误差，这个数量叫做 TD 误差：
$\delta_t \doteq R_{t+1} + \gamma V(S_{t+1}) - V(S_t)$

注意到，TD 误差是当时估算的误差，因为 TD 误差依赖于下一个状态和下一个奖励，因此直到一个时间步之后才可用
也就是说， $V(S_t)$ 的误差 $\delta_t$ 直到时间 $t + 1$ 才可用
另外，如果数组 $V$ 在回合中没有改变，那么蒙特卡洛误差可以写成 TD 误差的和：

最低0.47元/天解锁文章

胧月夜い

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
时序差分学习

Temporal-Difference LearningTD 预测Sarsa：On-policy\text{On-policy}On-policy TD 控制例题：有风的网格世界TD 预测TD 和蒙特卡洛方法都使用了经验来解决预测问题粗略地说，蒙特卡洛一直等到访问后的回报已知，接着使用该回报作为 V(St)V(S_t)V(St) 的目标一个简单的适用于非平稳环境的每次访问蒙特卡洛法是：V(St)←V(St)+α[Gt−V(St)]V(S_t) \gets V(S_t) + \alpha [G_
复制链接

扫一扫