7、n-step Bootstrapping（TD、Sarsa、Tree Backup、Q(σ) ）

最新推荐文章于 2023-12-13 23:52:57 发布

Jacob Jiang

最新推荐文章于 2023-12-13 23:52:57 发布

阅读量873

点赞数 1

分类专栏： RL 文章标签：强化学习

本文链接：https://blog.csdn.net/weixin_42104932/article/details/105584824

版权

RL 专栏收录该内容

28 篇文章 4 订阅

订阅专栏

文章目录

1、n-step TD Prediction
2、n-step Sarsa——Sarsa(λ)
3、n-step Off-policy Learning by Importance Sampling
4、The n-step Tree Backup Algorithm
5、A Unifying Algorithm: n-step Q( $\sigma$ )

Multi-step TD 方法对MC方法和TD(0)方法进行了推广，且表现更佳。
MC方法：对一个完整的episode进行计算值函数
TD(0)方法：episode中每执行一步进行计算值函数

如下图所示：
在这里插入图片描述

1、n-step TD Prediction

MC方法的评估值函的更新方式使用完整的回报（下面的等式称为target）：
在这里插入图片描述
TD(0)方法的target是第一个reward加上带折扣系数的下一个状态的值函数：

two-step TD方法的target：

以此类推 . . .
n-step TD方法的target：

从而得到，n-step returns的 n-step TD 算法为：

2、n-step Sarsa——Sarsa(λ)

根据估计的动作值定义 n-step Sarsa 的回报：
在这里插入图片描述

n-step Sarsa 算法为：
在这里插入图片描述

MorvanZhou / Sarsa-lambda 代码

3、n-step Off-policy Learning by Importance Sampling

n-step TD 的off-policy版本是n-step TD 算法公式中乘了一个重要性采样比：
在这里插入图片描述

类似的，n-step Sarsa 的off-policy版本：
在这里插入图片描述

注：off-policy中使用了 importance sampling 会增加更新时的方差，这样需要使用一个小的步长参数，从而导致学习速度较慢。

Off-policy n-step Sarsa代码实现

一些改进方法：

快速调整步长以适应观察到的方差，就像 Autostep metho (Mahmood et al, 2012)。
the invariant updates of Karampatziakis and Langford (2010）。
technique of Mahmood and Sutton (2015)

4、The n-step Tree Backup Algorithm

这是一种不适用 Importance Sampling 的 Off-policy Learning 方法。Tree Backup Algorithm的思想是每步都求动作值的期望值。
在这里插入图片描述
首先，定义目标策略下的期望动作值：

然后，定义 TD error :

使用上面的动作来定义 Tree Backup Algorithm 的 n-step returns：

Tree Backup Algorithm 的动作值更新方式：

简化版本：