强化学习9——免模型预测算法介绍（蒙特卡洛方法和时步差分方法）

beiketaoerge

已于 2024-01-09 16:47:13 修改

阅读量1k

点赞数 21

分类专栏：强化学习文章标签：算法蒙特卡洛强化学习时步差分

于 2024-01-09 16:47:02 首次发布

本文链接：https://blog.csdn.net/beiketaoerge/article/details/135484672

版权

强化学习专栏收录该内容

13 篇文章 3 订阅

订阅专栏

本文介绍了在环境状态转移概率未知的情况下，如何使用蒙特卡洛方法和时序差分算法进行状态价值估计，以及如何通过步长和学习率控制学习过程的稳定性。讨论了两者之间的区别，如蒙特卡洛基于大量采样，而时序差分则利用当前和后续状态的估计。还提到了优化参数的选择方法，如网格搜索。

摘要由CSDN通过智能技术生成

对于大部分情况来说，环境是未知的，也就是说状态转移概率未知，对于这种情况的算法称为免模型预测算法。免模型算法与环境不断交互学习，但是需要大量的运算。

蒙特卡洛方法

蒙特卡罗方法通过重复随机抽选，之后运用统计概率此方法来从抽样结果中归纳我们想要得到的数值估计。如下图所示，圆面积与正方形面积的比等于落入圆内的点与落入正方形的内的点的比

一个状态的价值是它的期望回报，可以采样多条序列，计算从这个状态出发的回报，再求期望，如下式所示：
$V^\pi(s)=\mathbb{E}_\pi[G_t|S_t=s]\approx\frac{1}{N}\sum_{i=1}^NG_t^{(i)}$
在采样得到的某一序列中，可能没有我们想要计算的状态，也可能出现一次这个状态，当然也可能出现多次这个状态。我们介绍的蒙特卡洛价值估计方法在该状态每一次出现时计算他的回报，如以下流程所示：

先通过策略采用若干条序列
在对每一条序列中的每一个状态s进行以下操作
- 更新状态s的计数器 $N(s)\gets N(s)+1$
- 更新状态s的总回报 $M(s)\gets M(a)+G_t$
每一个状态的价值被估计为回报的平均值 $V (s) = M (s) / N (s)$

根据大数定律，当 $N(s)\to \infty$ ，有 $V(s)\to \infty$ ，计算回报的期望时，可以采用增量更新的方式：

$N(s)\gets N(s)+1$
$V(s)\gets V(s)+\frac{1}{N(s)}(G-V(s))$

这种方式的原理在多臂老虎机中推导过：
$\begin{aligned} Q_{k}& =\frac1k\sum_{i=1}^kr_i \\ &=\frac{1}{k}\left(r_k+\sum_{i=1}^{k-1}r_i\right) \\ &=\frac1k(r_k+(k-1)Q_{k-1}) \\ &=\frac1k(r_k+kQ_{k-1}-Q_{k-1}) \\ &=Q_{k-1}+\frac1k[r_k-Q_{k-1}] \end{aligned}$

在使用时，一般不严格按照期望的方法计算，而是将 $\frac{1}{N(s)} \to \alpha$ ，即转化为一个常数：
$V(s_t)\leftarrow V(s_t)+\alpha[G_t-V(s_t)]$
即：
$\text{新的估计值} \gets 旧的估计值+步长 \ *(目标值-旧的估计值)$
通过添加学习率的方式，可以避免因为个别不好的样本而导致更新的急剧变化，从而导致学习得不稳定。

时序差分方法

在时序差分算法时，使用当前获得的奖励和下一个状态的价值估计来作为当前状态会获得回报：
$V(s_t)\leftarrow V(s_t)+\alpha[r_t+\gamma V(s_{t+1})-V(s_t)]$
时序差分算法将时序差分误差 $r_t+\gamma V(s_{t+1})-V(s_t)$ 与步长的乘积作为状态价值的更新量。
$\begin{aligned} V_{\pi}(s)& =\mathbb{E}_\pi[G_t|S_t=s] \\ &=\mathbb{E}_\pi[\sum_{k=0}^\infty\gamma^kR_{t+k}|S_t=s] \\ &=\mathbb{E}_\pi[R_t+\gamma\sum_{k=0}^\infty\gamma^kR_{t+k+1}|S_t=s] \\ &=\mathbb{E}_\pi[R_t+\gamma V_\pi(S_{t+1})|S_t=s] \end{aligned}$
蒙特卡洛以第一步为更新目标，计算所有状态后得到回报，时序差分算法以上式最后一行作为更新目标，在用策略和环境交互时，每采样一步，我们就可以用时序差分算法来更新状态价值估计。

n步时序差分

可以将一步调整为两步，利用两步得到回报来更新状态的价值，调整n步就是n步时序差分。
$\begin{aligned} &n=1(\mathrm{TD})\quad G_t^{(1)}=r_{t+1}+\gamma V\left(s_{t+1}\right) \\ &n=2\quad G_t^{(2)}=r_{t+1}+\gamma r_{t+2}+\gamma^2V\left(s_{t+2}\right) \\ &n=\infty(\mathrm{MC})\quad G_t^\infty=r_{t+1}+\gamma r_{t+2}+\cdots+\gamma^{T-t-1}r_T \end{aligned}$
当n趋近于无穷大时，我们会发现所用到的就是蒙特卡洛方法了。