【强化学习笔记】6.1 基于值函数逼近的强化学习方法

最新推荐文章于 2024-07-01 16:33:20 发布

广告与算法

最新推荐文章于 2024-07-01 16:33:20 发布

阅读量2.6k

点赞数 5

分类专栏：强化学习强化学习笔记文章标签：强化学习

本文链接：https://blog.csdn.net/bigheadyushan/article/details/80659556

版权

强化学习同时被 2 个专栏收录

24 篇文章 4 订阅

订阅专栏

强化学习笔记

24 篇文章 12 订阅

订阅专栏

值函数

动态规划，蒙特卡洛和时间差分的强化学习，均遵循基本的步骤：先评估值函数，然后根据值函数改进策略。之前介绍的方法也有一个前提条件即状态和行为是离散的，状态空间和行为空间有限，状态值函数为一个索引，状态-行为值函数为二维表格，因此也被成为表格型强化学习。

如果状态或者状态-行为的维度多大，比如状态为连续空间，那么就需要考虑逼近值函数了，之后仍然采用策略迭代或者值迭代的方法进行强化学习。

逼近值函数的话，那么就是监督学习了，需要确定学习的目标。重新看一下蒙特卡洛和时间差分法的公式：
蒙特卡洛方法： $\nu(s_t)= \nu(s_t) + \alpha \big(G_t - \nu(s_t)\big)$
时间差分法： $\nu(s_t)= \nu(s_t) + \alpha \big(R_{t+1} + \gamma \nu(s_{t+1}) - \nu(s_t)\big)$
迭代过程都是朝着一个目标更新的，在蒙特卡洛方法中是 $G_t$ ，在时间差分法中是 $R_{t+1} + \gamma v(s_{t+1})$ . 因此逼近值函数的输入输出数据对就是 $S_t, U_t>$ ,对应训练的目标函数是：
$min_{\theta} \big( U_t - \hat{\nu}(S_t, \theta) \big)^2$

线性逼近

$\hat{\nu}(s, \theta) = \theta^T \phi(s)$ ，其中 $\phi(s)$ 为基函数
常用的基函数有：
多项式函数，如 $\big(1, s_1, s_2, s_1s_2, s_1^2, s_2^2,....)$
傅里叶函数，如 $\phi_i(s)=cos(i\pi s),s \in [0,1]$
径向基函数，如 $\phi_i(s)=exp \big(-\frac{||s-c_i||^2}{2\sigma_i^2} \big),s \in [0,1]$
代码实现见【强化学习笔记】6.2 基于值函数逼近的强化学习方法-蒙特卡洛线性逼近代码实现
代码实现见【强化学习笔记】6.3 基于值函数逼近的强化学习方法-TD Sarsa算法线性逼近代码实现
代码实现见【强化学习笔记】6.4 基于值函数逼近的强化学习方法-TD Q-learning线性逼近代码实现

非线性逼近

常用神经网络等。
代码实现见【强化学习笔记】6.5 基于值函数逼近的强化学习方法-TD Q-learning非线性逼近代码实现

增量式学习方法

随机梯度法（SDG）是常用的增量式学习方法。参数更新的方式为：
$\theta_{t+1} = \theta_t + \alpha \big[U_t - \hat{\nu}(S_t, \theta) \big] \nabla_{\theta} \hat{\nu}(S_t, \theta)$

对于蒙特卡洛方法， $\theta_{t+1} = \theta_t + \alpha \big[G_t - \hat{\nu}(S_t, \theta) \big] \nabla_{\theta} \hat{\nu}(S_t, \theta)$
对于时间差分方法， $\theta_{t+1} = \theta_t + \alpha \big[R_{t+1} + \gamma \hat{\nu}(S_{t+1}, \theta)- \hat{\nu}(S_t, \theta) \big] \nabla_{\theta} \hat{\nu}(S_t, \theta)$
注意在时间差分法中目标值中也含有参数 $\theta$ ，在这里忽略其影响，这种方法称之为半梯度方法。
当采用线性逼近函数 $\hat{\nu}(s, \theta) = \theta^T \phi(s)$ 时， $\hat{\nu}(S_t, \theta)=\phi(S_t)$