RLAI读书笔记-第十二章-Eligibility Traces

最新推荐文章于 2023-06-14 17:17:35 发布

cuixuange

最新推荐文章于 2023-06-14 17:17:35 发布

阅读量342

点赞数

分类专栏： machine-learning 强化学习基础文章标签： RLAI 资格迹

本文链接：https://blog.csdn.net/u014297722/article/details/82348149

版权

12 Eligibility Traces 10章的近似函数扩展 Wt+1 = Wt + α * {Vπ(St) - V^(S,W)} * ▽wV^(S,W) 公式P223 1.α是步长误差{Vπ(St) - V^(S,W)}变大则α需要变小 2.Vπ(St) 即Gt通过本章的λ-return计算 3. ▽wV^(S,W) 通过资格迹来优化看第九章资格迹==优化后的函数微分(...

摘要由CSDN通过智能技术生成

12 Eligibility Traces
10章的近似函数扩展
Wt+1 = Wt + α * {Vπ(St) - V^(S,W)} * ▽wV^(S,W) 公式P223
1.α是步长误差{Vπ(St) - V^(S,W)}变大则α需要变小
2.Vπ(St) 即Gt通过本章的λ-return计算
3. ▽wV^(S,W) 通过资格迹来优化看第九章
资格迹==优化后的函数微分(因为TD算法的 V^(S,W)估计值是不精确的)

12.1 λ-return
1. 实际价值函数Vπ(S)没有实际的价值函数，我们需要近似处理，再通过监督数据学习近似函数的参数
2. λ=1 λ-return就是MC算法
https://www.cnblogs.com/steven-yang/p/6617134.html
3.它是由它后面的所有G(n)tGt(n)的加权平均值(感觉和重要性采样思想差不多)
图片理解 P312
e.g. 3-step的第3步的weight=(1-λ)*λ^2
==>forward view 思想 P314

12.2 TD(λ)
https://zhuanlan.zhihu.com/p/38862299
P315
1.时间t时刻使用得到的Rt构建λ-return,去更新t时刻之前的所有值函数
2.远离t时刻的值函数的更新幅度 * 指数衰减的权重(Eligibi

最低0.47元/天解锁文章

cuixuange

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
RLAI读书笔记-第十二章-Eligibility Traces

12 Eligibility Traces 10章的近似函数扩展 Wt+1 = Wt + α * {Vπ(St) - V^(S,W)} * ▽wV^(S,W) 公式P223 1.α是步长误差{Vπ(St) - V^(S,W)}变大则α需要变小 2.Vπ(St) 即Gt通过本章的λ-return计算 3. ▽wV^(S,W) 通过资格迹来优化看第九章资格迹==优化后的函数微分(...
复制链接

扫一扫

专栏目录