RLAI读书笔记-第十章-On-policy Control with Approximation

On-policy Control with Approximation
策略的行动状态价值
Q(S,A)的近似值Q(S,A,W)

10.1 Episode Semi-gradient Control
e.g. 半梯度的one-step Sarsa 伪代码P266
state-action的状态的价值的近似
动作离散 的example:—小车上山
解释: https://zhuanlan.zhihu.com/p/28223841 通过小车的位置和速度决定当前的价值

10.2 semi-gradient n-step sarsa
跳过 不是特别明白
感觉不重要

10.3 Average Reward for Continuing Tasks
discount γ 对于连续性任务的近似计算有一定的问题(chapter11)
连续性任务中引入了平均奖赏
略过 不是很明白

10.4 deprecating the discount Set
弃用折扣因子

10.5 Differential Semi-gradient n-step Sarsa
略过了 没看

summary

第11章关于 off-policy的值函数近似 这也是当前前沿研究
看第六章第七章

off-policy的近似方法的研究现在处于领域的前沿。主要有两个方向:

使用重要样本的方法,扭曲样本的分布成为目标策略的分布。这样就可以使用半梯度递减方法收敛。
开发一个真正的梯度递减方法,这个方法不依赖于任何分布。
https://www.cnblogs.com/steven-yang/p/6536742.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值