RLAI读书笔记-第十二章-Eligibility Traces

12 Eligibility Traces 10章的近似函数扩展 Wt+1 = Wt + α * {Vπ(St) - V^(S,W)} * ▽wV^(S,W) 公式P223 1.α是步长 误差{Vπ(St) - V^(S,W)}变大 则α需要变小 2.Vπ(St) 即Gt通过本章的λ-return计算 3. ▽wV^(S,W) 通过资格迹来优化看第九章 资格迹==优化后的函数微分(...
摘要由CSDN通过智能技术生成

12 Eligibility Traces
10章的近似函数扩展
Wt+1 = Wt + α * {Vπ(St) - V^(S,W)} * ▽wV^(S,W) 公式P223
1.α是步长 误差{Vπ(St) - V^(S,W)}变大 则α需要变小
2.Vπ(St) 即Gt通过本章的λ-return计算
3. ▽wV^(S,W) 通过资格迹来优化看第九章
资格迹==优化后的函数微分(因为TD算法的 V^(S,W)估计值是不精确的)

12.1 λ-return
1. 实际价值函数Vπ(S)没有实际的价值函数,我们需要近似处理,再通过监督数据学习近似函数的参数
2. λ=1 λ-return就是MC算法
https://www.cnblogs.com/steven-yang/p/6617134.html
3.它是由它后面的所有G(n)tGt(n)的加权平均值(感觉和重要性采样思想差不多)
图片理解 P312
e.g. 3-step的第3步的weight=(1-λ)*λ^2
==>forward view 思想 P314

12.2 TD(λ)
https://zhuanlan.zhihu.com/p/38862299
P315
1.时间t时刻 使用得到的Rt构建λ-return,去更新t时刻之前的所有值函数
2.远离t时刻的值函数的更新幅度 * 指数衰减的权重(Eligibi

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值