12 Eligibility Traces
10章的近似函数扩展
Wt+1 = Wt + α * {Vπ(St) - V^(S,W)} * ▽wV^(S,W) 公式P223
1.α是步长 误差{Vπ(St) - V^(S,W)}变大 则α需要变小
2.Vπ(St) 即Gt通过本章的λ-return计算
3. ▽wV^(S,W) 通过资格迹来优化看第九章
资格迹==优化后的函数微分(因为TD算法的 V^(S,W)估计值是不精确的)
12.1 λ-return
1. 实际价值函数Vπ(S)没有实际的价值函数,我们需要近似处理,再通过监督数据学习近似函数的参数
2. λ=1 λ-return就是MC算法
https://www.cnblogs.com/steven-yang/p/6617134.html
3.它是由它后面的所有G(n)tGt(n)的加权平均值(感觉和重要性采样思想差不多)
图片理解 P312
e.g. 3-step的第3步的weight=(1-λ)*λ^2
==>forward view 思想 P314
12.2 TD(λ)
https://zhuanlan.zhihu.com/p/38862299
P315
1.时间t时刻 使用得到的Rt构建λ-return,去更新t时刻之前的所有值函数
2.远离t时刻的值函数的更新幅度 * 指数衰减的权重(Eligibi