强化学习（RLAI）读书笔记第十章On-Policy Control with Approximation

最新推荐文章于 2023-02-13 17:06:28 发布

无所知

最新推荐文章于 2023-02-13 17:06:28 发布

阅读量1.1k

点赞数 1

分类专栏：强化学习文章标签： RLAI

本文链接：https://blog.csdn.net/qq_25037903/article/details/82669594

版权

目前继续考虑on-policy的带逼近的control算法。这章主要介绍半梯度Sarsa算法，也就是半梯度TD(0)算法对于动作值估计以及on-policy control算法的自然延伸。虽然这个延伸对于episodic的情况是很自然的，但是对于continuing的情况，我们需要再次考虑对于discounting方法来定义一个最优策略的方式。而当我们使用函数逼近的时候需要放弃discounting并且转到一个新的平均反馈的控制机制。

这章显示将上一章中的函数逼近方法延伸到episodic形势下的动作值函数。然后又拓展到泛化收敛机制on-policy GPI下的控制算法。接着展示了n步线性Sarsa算法在mountain car问题中的结果。之后又转向了continuing的情况，并且复述了使用差值来建立平均反馈的想法的发展过程。

10.1 Episodic Semi-gradient Control

将上节中的函数逼近从状态值函数形式延伸到状态动作值函数是很直接的。直接将相应的更新目标从状态值函数估计更改为状态动作值函数估计 $U_{t}$ 即可，比如可以使用MC反馈或者任意的n步Sarsa反馈值。对于参数，更新的迭代公式为：

比如对于一步Sarsa算法来说更新公式为：

这个方法叫做episodic semi-gradient one-step Sarsa。对于一个固定策略来说，算法会收敛到和TD(0)一样的形式以及一样的上界。为了组成control算法，我们需要将这个更新过程和对于策略的改进以及动作的选择结合起来。对于连续的动作或者大型的离散动作集合来说，还没有一个清晰的解决方式。但是对于离散且非大型的动作集合，可以直接使用前面章节使用的方法。也就是说，对于特定状态 $S_{t}$ 可以计算每个可行动作的值函数估计 $\widehat{q}(S_{t},a,w_{t})$ ，然后选择贪婪动作，也就是值最大的动作。而policy improvement也就可以通过改变当前的策略到一个贪婪策略的软逼近比如 $\epsilon$ -greedy。动作的选择也是根据这个当前策略。伪代码如下：