强化学习系列（十）：On-policy Control with Approximation

最新推荐文章于 2023-05-09 15:11:31 发布

VIP文章 LagrangeSK

最新推荐文章于 2023-05-09 15:11:31 发布

阅读量2.5k

点赞数

分类专栏：强化学习文章标签：强化学习函数逼近

本文链接：https://blog.csdn.net/LagrangeSK/article/details/81986102

版权

一、前言

本章我们关注on-policy control 问题，这里采用参数化方法逼近action-value函数 $\hat q(s,a,\mathbf w) \approx q(s,a)$ ，其中， $\mathbf w$ 为权重向量。在11章中会讨论off-policy方法。本章介绍了semi-gradient Sarsa算法，是对上一章中介绍的semi-gradient TD(0)的一种扩展，将其用于逼近action value, 并用于 on-policy control。在episodic 任务中，这种扩展是十分直观的，但对于连续问题来说，我们需要考虑如何将discount (折扣系数）用于定义optimal policy。值得注意的是，在对连续任务进行函数逼近时，我们必须放弃discount ，而改用一个新的形式 ” average reward”和一个“differential” value function进行表示。

首先，针对episodic任务，我们将上一章用于state value 的函数逼近思想扩展到action value上，然后我们将这些思想扩展到 on-policy GPI过程中，用 $\epsilon$ -greedy来选择action，最后针对连续任务，对包含differential value的average-reward运用上述思想。

二、Episode Semi-gradient Control

将第9章中的semi-gradient prediction 方法扩展到control问题中。这里，approximate action-value $\hat q \approx q_\pi$ ，是权重向量 $\mathbf w$ 的函数。在第9章中逼近state-value时，所采用的训练样例为 $S_t \mapsto U_t$ ，本章中所采用的训练样例为 $S_t,A_t \mapsto U_t$ ，update target $U_t$ 可以是 $q_\pi(S_t,A_t)$ 的任何逼近，无论是由MC还是n-step Sarsa获得。对action-value prediction 的梯度下降如下：
这里写图片描述
对one-step Sarsa而言，

最低0.47元/天解锁文章

LagrangeSK

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
强化学习系列（十）：On-policy Control with Approximation

一、前言本章我们关注on-policy control 问题，这里采用参数化方法逼近action-value函数 q̂&amp;amp;nbsp;(s,a,w)≈q(s,a)q^(s,a,w)≈q(s,a)\hat q(s,a,\mathbf w) \approx q(s,a)，其中，ww\mathbf w为权重向量。在11章中会讨论off-policy方法。本章介绍了semi-gradient Sarsa算...
复制链接

扫一扫