【RL从入门到放弃】【七】

最新推荐文章于 2023-03-16 10:10:12 发布

money_yuan

最新推荐文章于 2023-03-16 10:10:12 发布

阅读量391

点赞数

分类专栏： AI

AI 专栏收录该内容

60 篇文章 9 订阅

订阅专栏

1、基于值函数逼近的RL

前面已经介绍了强化学习的基本方法：基于动态规划的方法，基于蒙特卡罗的方法和基于时间差分的方法。这些方法有一个基本的前提条件：状态空间和动作空间是离散的，而且状态空间和动作空间不能太大。这些强化学习方法的基本步骤是先评估值函数，再利用值函数改善当前的策略。其中值函数的评估是关键。对于模型已知的系统，可以利用动态规划的方法得到值函数；对于模型未知的系统，可以利用蒙特卡罗的方法或时间差分的方法得到值函数。注意，这时的值函数其实是一个表格。对于状态值函数，其索引是状态；对于行为值函数，其索引是状态-行为对。值函数的迭代更新实际上就是这张表的迭代更新。因此，之前讲的强化学习算法可称为表格型强化学习。对于状态值函数，其表格的维数为状态的个数|S|,其中S 为状态空间。若状态空间的维数很大，或者状态空间为连续空间，此时值函数方法不用一张表格来表示。我们需要利用函数逼近的方法表示值函数，如图6.1所示。当值函数利用函数逼近的方法表示后，可以利用策略迭代和值迭代方法构建强化学习算法

在表格型强化学习中，值函数对应着一张表。在值函数逼近方法中，值函数对应着一个逼近函数

从数学角度来看，函数逼近方法可以分为参数逼近和非参数逼近，因此强化学习值函数估计可以分为参数化逼近和非参数化逼近。

参数逼近

参数化逼近又分为线性参数化逼近和非线性化参数逼近。本节我们主要介绍参数化逼近。所谓参数化逼近，是指值函数可以由一组参数θ来近似。我们将逼近的值函数写为

当逼近的值函数结构确定时（如线性逼近时选定了基函数，非线性逼近时选定了神经网络的结构），那么值函数的逼近就等价于参数的逼近。值函数的更新也就等价于参数的更新。也就是说，我们需要利用试验数据来更新参数值。

从表格型强化学习值函数更新的公式中得到启发

从（6.1）〜（6.3）式值函数的更新过程可以看出，值函数更新过程是向着目标值函数靠近。如图6.2所示为TD方法更新值函数的过程。

从表格型值函数的更新过程，可以看出无论是蒙特卡罗方法还是时间差分方法，都是朝着一个目标值更新的，这个目标值在蒙特卡罗方法中是Gt ，在时间差分方法中是 , 中是

参数逼近的目标函数：

非参数逼近

。。。。

表格型和参数逼近的RL的区别

（1）表格型强化学习在更新值函数时，只有当前状态St 处的值函数改变，其他地方的值函数不改变。

（2）值函数逼近方法更新值函数时，更新的是参数，⽽估计的值函数为，所以当参数发生改变，任意状态处的值函数都会发生改变。

增量式学习法

值函数更新可分为增量式学习方法和批学习方法，随机梯度下降法是最常用的增量式学习方法

由（6.4）式我们得到参数的随机梯度更新为

Ut是目标值，这个目标值在蒙特卡罗方法中是Gt ，在时间差分方法中是 , 中是

基于蒙特卡罗方法的函数逼近

给定要评估的策略，产生一次试验：

值函数的更新过程实际是一个监督学习的过程，其中监督数据集从蒙特卡罗的试验中得到，其数据集为

值函数的更新如下：

基于时间差分的函数逼近

根据方程（6.5），TD（0）方法中目标值函数为，即目标值函数用到了bootstrapping的⽅法

我们注意到此时要更新的参数不仅出现在要估计的值函数中，还出现在目标值函数中。若只考虑参数对估计值函数的影响而忽略对目标值函数的影响，这种做法就不是完全的梯度法（只有部分梯度），因此也称为基于半梯度的TD（0）值函数评估算法，如图6.4 所示

如图 6.5 所示为基于半梯度的 Sarsa 算法。与表格型强化学习相⽐，值函数逼近⽅法中把对值函数的更新换成了对参数的更新，参数的学习过程为监督学习。

值函数的逼近形式

值函数可以采用线性逼近也可采用非线性逼近。非线性逼近常用的是神经网络

值函数的线性逼近

相比于非线性逼近，线性逼近的好处是只有一个最优值，因此可以收敛到全局最优。其中为状态s处的特征函数，或者称为基函数

常用的基函数的类型如下

将线性逼近值函数代入随机梯度下降法和半梯度下降法中，可以得到参数的更新公式，不同强化学习方法更新公式如下。

蒙特卡罗方法值函数更新公式：

TD（0）线性逼近值函数更新公式：

正向视角的更新公式：

反向视角的更新公式：

前面讨论的是增量式方法更新。增量式方法参数更新过程随机性比较大，尽管计算简单，但样本数据的利用效率并不大。我们再来看下批的方法，尽管它计算复杂，但计算效率高。

批学习方法

所谓批的方法是指给定经验数据集

找到最好的拟合函数使得

最小。

2、最优控制问题

当模型已知时，强化学习问题可转化为最优控制问题。本节我们给出最优控制的计算方法。最优控制的数值计算方法分为间接法和直接法。其分类如图3.18所示

最优控制问题的数学形式化

间接法

所谓间接法，是指首先利用变分法、最大值原理或者动态规划方法得到求解最优问题的一组微分方程（如本章3.1节利用动态规划的方法得到了一组偏微分方程），之后，利用数值求解方法求出此微分方程组的解，此解即为原最优问题的解。如本文介绍的微分动态规划的方法就属于间接法。

直接法

直接法与间接法不同，它不需要首先利用最优控制理论（如变分原理，最大值原理或动态规划方法）得到一组微分方程，

最优控制和RL之间的关系

解决最优控制问题的思路

money_yuan

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【RL从入门到放弃】【七】

1、基于值函数逼近的RL前面已经介绍了强化学习的基本方法：基于动态规划的方法，基于蒙特卡罗的方法和基于时间差分的方法。这些方法有一个基本的前提条件：状态空间和动作空间是离散的，而且状态空间和动作空间不能太大。这些强化学习方法的基本步骤是先评估值函数，再利用值函数改善当前的策略。其中值函数的评估是关键。对于模型已知的系统，可以利用动态规划的方法得到值函数；对于模型未知的系统，可以利用蒙特卡罗的方...
复制链接

扫一扫