RLAI读书笔记-第十章-On-policy Control with Approximation

最新推荐文章于 2023-05-04 13:11:16 发布

cuixuange

最新推荐文章于 2023-05-04 13:11:16 发布

阅读量214

点赞数

分类专栏： machine-learning 强化学习基础

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014297722/article/details/82262229

版权

machine-learning 同时被 2 个专栏收录

32 篇文章 1 订阅

订阅专栏

强化学习基础

18 篇文章 1 订阅

订阅专栏

On-policy Control with Approximation
策略的行动状态价值
Q(S,A)的近似值Q(S,A,W)

10.1 Episode Semi-gradient Control
e.g. 半梯度的one-step Sarsa 伪代码P266
state-action的状态的价值的近似
动作离散 的example:—小车上山
解释: https://zhuanlan.zhihu.com/p/28223841 通过小车的位置和速度决定当前的价值

10.2 semi-gradient n-step sarsa
跳过不是特别明白
感觉不重要

10.3 Average Reward for Continuing Tasks
discount γ 对于连续性任务的近似计算有一定的问题(chapter11)
连续性任务中引入了平均奖赏
略过不是很明白

10.4 deprecating the discount Set
弃用折扣因子

10.5 Differential Semi-gradient n-step Sarsa
略过了没看

summary

第11章关于 off-policy的值函数近似这也是当前前沿研究
看第六章第七章

off-policy的近似方法的研究现在处于领域的前沿。主要有两个方向：

使用重要样本的方法，扭曲样本的分布成为目标策略的分布。这样就可以使用半梯度递减方法收敛。
开发一个真正的梯度递减方法，这个方法不依赖于任何分布。
https://www.cnblogs.com/steven-yang/p/6536742.html

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
RLAI读书笔记-第十章-On-policy Control with Approximation

On-policy Control with Approximation 策略的行动状态价值 Q(S,A)的近似值Q(S,A,W)10.1 Episode Semi-gradient Control e.g. 半梯度的one-step Sarsa 伪代码P266 state-action的状态的价值的近似动作离散的example:—小车上山解释: https://zhuan...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。