7 Multi-step Bootstrapping

最新推荐文章于 2022-11-14 15:08:03 发布

cute_Lily

最新推荐文章于 2022-11-14 15:08:03 发布

阅读量1.8k

点赞数 1

分类专栏： # 强化学习

本文链接：https://blog.csdn.net/coffee_cream/article/details/81053960

版权

【上一节6 Temporal-Difference （TD） Learning 】
【下一节8 Planning and Learning with Tabular Methods 】

1、n-step TD Prediction

TD 和蒙特卡洛方法在原理上是有一定区别的，例如利用在给定规则 ${\pi}$ 下产生的样本 episodes 来估计 $v_{\pi}$ ，蒙特卡洛方法会基于整个 episode 结束之后的 reward 来对每个状态进行更新。而 one-step TD 方法的 backup 是基于下一个reward的。有一些介于这两种方法之间的算法，会基于中间一定数量的rewards来 backup，例如，two-step backup 会基于一个状态之后两步的rewards和两步之后的估计value。对 $v_{\pi}$ 的n-step backups的图形化表示如下所示：

图1

使用 n-steps backups 的方法仍然是 TD 方法，因为它们都是基于之前的估计与之后的估计的偏差来更新值，只不过这里用的是n步之后的值，因此可以将它们称为是 n-step TD 方法。

我们知道，在蒙特卡洛方法中，对 $v_{\pi}(S_{t})$ 的更新是利用完整的return，即更新方程为：
$G_t \doteq R_{t+1} + \gamma R_{t+2}+\gamma^2 R_{t+3}+\cdots+\gamma^{T-t-1} R_{T}$

其中T是episode的最后一个time step，从中可以看出，蒙特卡洛方法中的 target 是 return，而在one-step方法中其 target 是第一个reward加上之后状态的估计值乘上一个衰减系数，称之为 one-step return：
$G_t^{(1)} \doteq R_{t+1} + \gamma V_{t}(S_{t+1})$
其中， $KaTeX parse error: Undefined control sequence: \cal at position 6: V_t:{\̲c̲a̲l̲ ̲S}\rightarrow {…$ 是在时间点 t 对 $v_{\pi}$ 的估计值，即是对 $\gamma R_{t+2}+\gamma^2 R_{t+3}+\cdots+\gamma^{T-t-1} R_{T}$ 的代替，因此对 two-step return 即为：
$G_t^{(2)} \doteq R_{t+1} + \gamma R_{t+2} + \gamma ^2 V_{t+1}(S_{t+2})$

这个式子中， $\gamma ^2 V_{t+1}(S_{t+2})$ 即是对 $\gamma^2 R_{t+3} + \cdots + \gamma^{T-t-1} R_{T}$ 的代替，类似的我们就可以推导出任意 n-step backup的return为：
$G_t^{(n)} \doteq R_{t+1} + \gamma R_{t+2} +\cdots + \gamma ^{n-1} R_{t+n}+ \gamma ^n V_{t+n-1}(S_{t+n}) , n\geq 1, 0 \leq t < T-n$

注意到，对 $n > 1$ ，n-step 的 returns 包含了未来的rewards和value function，在从时刻 t 到时刻 t+1 转换的时候是未知的，只有在时刻 t+n 之后才可用，因此，对 n-step 算法来说其算法应该是：
$V_{t+n}(S_t) \doteq V_{t+n-1}(S_t) + \alpha [G_t^{(n)} – V_{t+n-1}(S_t)], 0\leq<T$

最低0.47元/天解锁文章

cute_Lily

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
7 Multi-step Bootstrapping

【上一节Temporal-Difference （TD） Learning 】1、n-step TD PredictionTD 和蒙特卡洛方法在原理上是有一定区别的，例如利用在给定规则 ππ{\pi} 下产生的样本 episodes 来估计 vπvπv_{\pi}，蒙特卡洛方法会基于整个 episode 结束之后的 reward 来对每个状态进行更新。而 one-step TD 方法...
复制链接

扫一扫

专栏目录