文章目录
Multi-step TD 方法对MC方法和TD(0)方法进行了推广,且表现更佳。
MC方法:对一个完整的episode进行计算值函数
TD(0)方法:episode中每执行一步进行计算值函数
如下图所示:
1、n-step TD Prediction
MC方法的评估值函的更新方式使用完整的回报(下面的等式称为target):
TD(0)方法的target是第一个reward加上带折扣系数的下一个状态的值函数:
two-step TD方法的target:
以此类推 . . .
n-step TD方法的target:
从而得到,n-step returns的 n-step TD 算法为:
2、n-step Sarsa——Sarsa(λ)
根据估计的动作值定义 n-step Sarsa 的回报:
n-step Sarsa 算法为:
MorvanZhou / Sarsa-lambda 代码
3、n-step Off-policy Learning by Importance Sampling
n-step TD 的off-policy版本是n-step TD 算法公式中乘了一个重要性采样比:
类似的,n-step Sarsa 的off-policy版本:
注:off-policy中使用了 importance sampling 会增加更新时的方差,这样需要使用一个小的步长参数,从而导致学习速度较慢。
一些改进方法:
- 快速调整步长以适应观察到的方差,就像 Autostep metho (Mahmood et al, 2012)。
- the invariant updates of Karampatziakis and Langford (2010)。
- technique of Mahmood and Sutton (2015)
4、The n-step Tree Backup Algorithm
这是一种不适用 Importance Sampling 的 Off-policy Learning 方法。Tree Backup Algorithm的思想是每步都求动作值的期望值。
首先,定义目标策略下的期望动作值:
然后,定义 TD error :
使用上面的动作来定义 Tree Backup Algorithm 的 n-step returns:
Tree Backup Algorithm 的动作值更新方式:
简化版本:
5、A Unifying Algorithm: n-step Q( σ \sigma σ)
σ = 1 \sigma=1 σ=1表示采样, σ = 0 \sigma=0 σ=0表示期望。
n-step Q( σ \sigma σ):
n-step return of Sarsa:
n-step Q(
σ
\sigma
σ) 的 TD error:
定义 n-step Q(
σ
\sigma
σ) 的回报:
对于 off-policy,需要考虑importance sampling ratio:
完整算法:
简化版本: