【RL从入门到放弃】【七】

1、基于值函数逼近的RL

前面已经介绍了强化学习的基本方法:基于动态规划的方法,基于蒙特卡罗的方法和基于时间差分的方法。这些方法有一个基本的前提条件:状态空间和动作空间是离散的,而且状态空间和动作空间不能太大。这些强化学习方法的基本步骤是先评估值函数,再利用值函数改善当前的策略。其中值函数的评估是关键。对于模型已知的系统,可以利用动态规划的方法得到值函数;对于模型未知的系统,可以利用蒙特卡罗的方法或时间差分的方法得到值函数。注意,这时的值函数其实是一个表格。对于状态值函数,其索引是状态;对于行为值函数,其索引是状态-行为对。值函数的迭代更新实际上就是这张表的迭代更新。因此,之前讲的强化学习算法可称为表格型强化学习。对于状态值函数,其表格的维数为状态的个数|S|,其中S 为状态空间。若状态空间的维数很大,或者状态空间为连续空间,此时值函数方法不用一张表格来表示。我们需要利用函数逼近的方法表示值函数,如图6.1所示。当值函数利用函数逼近的方法表示后,可以利用策略迭代和值迭代方法构建强化学习算法

在表格型强化学习中,值函数对应着一张表。在值函数逼近方法中,值函数对应着一个逼近函数

从数学角度来看,函数逼近方法可以分为参数逼近和非参数逼近,因此强化学习值函数估计可以分为参数化逼近和非参数化逼近。

参数逼近

参数化逼近又分为线性参数化逼近和非线性化参数逼近。本节我们主要介绍参数化逼近。所谓参数化逼近,是指值函数可以由一组参数θ来近似。我们将逼近的值函数写为

当逼近的值函数结构确定时(如线性逼近时选定了基函数,非线性逼近时选定了神经网络的结构),那么值函数的逼近就等价于参数的逼近。值函数的更新也就等价于参数的更新。也就是说,我们需要利用试验数据来更新参数值。

从表格型强化学习值函数更新的公式中得到启发

从(6.1)〜(6.3)式值函数的更新过程可以看出,值函数更新过程是向着目标值函数靠近。如图6.2所示为TD方法更新值函数的过程。

从表格型值函数的更新过程,可以看出无论是蒙特卡罗方法还是时间 差分方法,都是朝着一个目标值更新的,这个目标值在蒙特卡罗方法中是Gt ,在时间差分方法中是 , 中是

参数逼近的目标函数:

非参数逼近

。。。。

表格型和参数逼近的RL的区别

(1)表格型强化学习在更新值函数时,只有当前状态St 处的值函数改变,其他地方的值函数不改变。

(2)值函数逼近方法更新值函数时,更新的是参数 ,⽽估计的值函 数为 ,所以当参数 发生改变,任意状态处的值函数都会发生改 变。

增量式学习法

值函数更新可分为增量式学习方法和批学习方法,随机梯度下降法是最常用的增量式学习方法

由(6.4)式我们得到参数的随机梯度更新为

Ut是目标值,这个目标值在蒙特卡罗方法中是Gt ,在时间差分方法中是 , 中是

基于蒙特卡罗方法的函数逼近

给定要评估的策略 ,产生一次试验:

值函数的更新过程实际是一个监督学习的过程,其中监督数据集从蒙 特卡罗的试验中得到,其数据集为

值函数的更新如下:

 

基于时间差分的函数逼近

根据方程(6.5),TD(0)方法中目标值函数为,即目标值函数用到了bootstrapping的⽅法

我们注意到此时要更新的参数 不仅出现在要估计的值函数 中,还出现在目标值函数 中。若只考虑参数 对估计值函数 的 影响而忽略对目标值函数 的影响,这种做法就不是完全的梯度法(只有 部分梯度),因此也称为基于半梯度的TD(0)值函数评估算法,如图6.4 所示

如图 6.5 所示为基于半梯度的 Sarsa 算法。与表格型强化学习相⽐,值函数逼近⽅法中把对值函数的更新换成了对参数的更新,参数的学习过程为监督学习。

值函数的逼近形式

值函数可以采用线性逼近也可采用非线性逼近。非线性逼近常用的是神经网络

值函数的线性逼近

相比于非线性逼近,线性逼近的好处是只有一个最优值,因此可以收 敛到全局最优。其中 为状态s处的特征函数,或者称为基函数

常用的基函数的类型如下

将线性逼近值函数代入随机梯度下降法和半梯度下降法中,可以得到 参数的更新公式,不同强化学习方法更新公式如下。

蒙特卡罗方法值函数更新公式:

TD(0)线性逼近值函数更新公式:

正向视角的 更新公式:

反向视角的 更新公式:

前面讨论的是增量式方法更新。增量式方法参数更新过程随机性比较大,尽管计算简单,但样本数据的利用效率并不大。 我们再来看下批的方法,尽管它计算复杂,但计算效率高。

批学习方法

所谓批的方法是指给定经验数据集

找到最好的拟合函数使得

最小。

2、最优控制问题

当模型已知时,强化学习问题可转化为最优控制问题。本节我们给出 最优控制的计算方法。最优控制的数值计算方法分为间接法和 直接法。其分类如图3.18所示

最优控制问题的数学形式化

间接法

所谓间接法,是指首先利用变分法、最大值原理或者动态规划方法得到求解最优问题的一组微分方程(如本章3.1节利用动态规划的方法得到了一组偏微分方程),之后,利用数值求解方法求出此微分方程组的解,此解即为原最优问题的解。如本文介绍的微分动态规划的方法就属于间接法。

直接法

直接法与间接法不同,它不需要首先利用最优控制理论(如变分原 理,最大值原理或动态规划方法)得到一组微分方程,

最优控制和RL之间的关系

解决最优控制问题的思路

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值