三蒙特卡罗方法（MC）和时序差分方法（TD）

最新推荐文章于 2024-07-10 13:46:51 发布

Autumncow

最新推荐文章于 2024-07-10 13:46:51 发布

阅读量1.7k

点赞数 2

分类专栏：强化学习

本文链接：https://blog.csdn.net/Autumncow/article/details/103093508

版权

强化学习专栏收录该内容

7 篇文章 1 订阅

订阅专栏

之前我们已经说过基于动态规划的方法来解决强化学习的问题，但是这是对于有一定的模型（知道在某一个状态下采取某一个动作的概率）才能应用的场景，在实际的情况中，想要了解到所有状态下可以采取行动的概率以及采取行动后到达某一状态的概率是困难的。

由此，我们引入了不基于模型的预测方法，也即蒙特卡罗方法（MC），蒙特卡罗方法的特征是采样，那么什么是样本（sample）？我们定义智能体从某一个状态开始，到某一个终点状态停止所收集的数据为这里的样本。通过多次采样，再计算这些样本中状态的状态值的平均值，由大数定律可以知道，当样本的数目非常大时，平均值非常接近期望值，也即我们可以算出状态的状态值。

显然，由于智能体的动作时随机的，在一组样本中，智能体可能到达同一状态多次，因此我们引入了初次蒙特卡罗方法和每次蒙特卡罗方法。由之前学过的内容我们知道，智能体在状态s下获得的奖励为： $\small G_t(s)=R_{t+1}+\gamma R_{t+2}+...+\gamma^{T-1} R_T$

随机取两次样本，S0是初始状态， $\small G_{11}(s)$ b表示在第一次采样中，第一次到达s状态获得的回报， $\small G_{12}(s)$ 则是第一次采样中，第二次到达状态s获得的回到，这两者的值通常情况下，并不相同。

初次蒙特卡罗方法：初次蒙特卡罗方法在计算状态的平均值时，每个状态在一次采样中只会取第一次出现的回报值，假设我们进行了多次采样，访问到状态s的总次数为N，则有

$\small v(s)=\frac{G_{11}(s)+G_{21}(s)+...+G_{N1}(s)}{N}$

每次蒙特卡罗方法：通过这个方法在计算平均值时，在一次采样中每次出现的回报值都会纳入计算，从而

$\small v(s)=\frac{G_{11}(s)+G_{12}(s)+G_{21}(s)+G_{22}(s)+...}{N}$

当N非常大时，平均值等价于期望值，我们就可以得到各个状态的状态值，也就是

$\small U_k=\frac{1}{k}\sum_{i=1}^{k}x_i=\frac{1}{k}(x_k+\sum_{i=1}^{k-1}x_i)=\frac{1}{k}(x_k+(k-1)U_{k-1})=U_{k-1}+\frac{1}{k}(x_k-U_{k-1})$

如果我们将其中的平均值 $\small U_k$ 看成是状态值 $\small v(s)$ , $\small x_k$ 看成是 $\small G_t$ ,令1/k作为一个步长 $\small \alpha$ ,从而我们可以得出蒙特卡罗学习方法的状态值更新公式：

$\small {\color{Red} v(s)=v(s)+\alpha(G_t-v(s))}$

但是蒙特卡罗方法有一个缺陷，他需要在每次采样结束以后才能更新当前的值函数，但问题规模较大时，这种更新的方式显示是非常慢的。结合我们之前所学的动态规划思想解决强化学习问题的过程，我们是否可以将蒙特卡罗方法中的采样过程缩短，从而提高速度呢?答案是肯定的，那就是时序差分（TD）的强化学习方法，在时序差分的方法当中，我们不需要每次等到采样结束以后再去更新值函数，取而代之的是我们可以采用自举（bootstrapping）方式来进行更新，在计算某一状态的回报时，用的是即将离开这一个状态的奖励加上 $\small \gamma$ 乘以下一个状态的预估状态值，具体来说，时序差分方法的值函数更新公式为：

$\small {\color{Red} v(s)=v(s)+(R_{t+1}+\gamma v(s_{t+1})-v(s))}$ ，其中的 $\small R_{t+1}+\gamma v(s_{t+1})$ 为TD目标， $\small R_{t+1}+\gamma v(s_{t+1})-v(s)$ 为TD误差。

以上这种基于当前状态往前看一步的预测，我们把它叫做TD(0),而一开始我们所讲的蒙特卡罗方法则是看到最后，也就是 $\small TD(\infty)$ ，很自然的我们可以想到TD(n)，此时的值函数更新公式为：

$\small v(s)=v(s)+\alpha(G_t^{(n)}-v(s))$ ,其中的 $\small G_t^{(n)}=R_{t+1}+\gamma R_{t+2}+...+\gamma^{n-1} R_{t+n}+\gamma^nv(s_{t+n})$ 。

关于随机采样更新值函数的方法有蒙特卡罗和时序差分，我们是否可以确定哪种方法更好呢?显然两者的应用场景是不同的，我们是否可以将两者结合，也就是说找到一个合适的n，使得更新的方法兼具蒙特卡罗和时序差分的优点或者是达到更加良好的预测效果呢？自然的想到，这将是一个参数调优的问题。为了综合考虑所有步数的预测，我们将所有步数的预测的结果乘以权值再进行求和，我们引入 $\small TD(\lambda)$ ，也就是对所有的预测进行几何加权， $\small {\color{Red} G_t^{\lambda}=(1-\lambda)\sum_{n=1}^{\infty}\lambda^{n-1}G_t^{n}}$ ,从而我们给出 $\small TD(\lambda)$ 值函数的更新公式：