7、n-step Bootstrapping(TD、Sarsa、Tree Backup、Q(σ) )


Multi-step TD 方法对MC方法和TD(0)方法进行了推广,且表现更佳。
MC方法:对一个完整的episode进行计算值函数
TD(0)方法:episode中每执行一步进行计算值函数

如下图所示:
在这里插入图片描述

1、n-step TD Prediction

MC方法的评估值函的更新方式使用完整的回报(下面的等式称为target):
在这里插入图片描述
TD(0)方法的target是第一个reward加上带折扣系数的下一个状态的值函数:
在这里插入图片描述
two-step TD方法的target:
在这里插入图片描述
以此类推 . . .
n-step TD方法的target:
在这里插入图片描述
从而得到,n-step returns的 n-step TD 算法为:
在这里插入图片描述
在这里插入图片描述


2、n-step Sarsa——Sarsa(λ)

根据估计的动作值定义 n-step Sarsa 的回报:
在这里插入图片描述
在这里插入图片描述

n-step Sarsa 算法为:
在这里插入图片描述
在这里插入图片描述
MorvanZhou / Sarsa-lambda 代码


3、n-step Off-policy Learning by Importance Sampling

n-step TD 的off-policy版本是n-step TD 算法公式中乘了一个重要性采样比:
在这里插入图片描述
在这里插入图片描述

类似的,n-step Sarsa 的off-policy版本:
在这里插入图片描述
在这里插入图片描述
注:off-policy中使用了 importance sampling 会增加更新时的方差,这样需要使用一个小的步长参数,从而导致学习速度较慢。

Off-policy n-step Sarsa代码实现

一些改进方法:

  1. 快速调整步长以适应观察到的方差,就像 Autostep metho (Mahmood et al, 2012)。
  2. the invariant updates of Karampatziakis and Langford (2010)。
  3. technique of Mahmood and Sutton (2015)

4、The n-step Tree Backup Algorithm

这是一种不适用 Importance Sampling 的 Off-policy Learning 方法。Tree Backup Algorithm的思想是每步都求动作值的期望值。
在这里插入图片描述
首先,定义目标策略下的期望动作值:
在这里插入图片描述
然后,定义 TD error :
在这里插入图片描述
使用上面的动作来定义 Tree Backup Algorithm 的 n-step returns:
在这里插入图片描述
Tree Backup Algorithm 的动作值更新方式:
在这里插入图片描述在这里插入图片描述
简化版本:

在这里插入图片描述

n-stepTree Backup 代码实现


5、A Unifying Algorithm: n-step Q( σ \sigma σ)

σ = 1 \sigma=1 σ=1表示采样, σ = 0 \sigma=0 σ=0表示期望。

在这里插入图片描述

n-step Q( σ \sigma σ):

n-step return of Sarsa:
在这里插入图片描述
n-step Q( σ \sigma σ) 的 TD error:
在这里插入图片描述
定义 n-step Q( σ \sigma σ) 的回报:
在这里插入图片描述
对于 off-policy,需要考虑importance sampling ratio:
在这里插入图片描述

完整算法:
在这里插入图片描述
简化版本:

在这里插入图片描述

off-policy n-step Q(σ) 代码实现

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值