【RL】深入TD：基于QTable的SARSA和QLearning

最新推荐文章于 2023-01-03 09:54:11 发布

BananaScript

最新推荐文章于 2023-01-03 09:54:11 发布

阅读量373

点赞数

分类专栏： Reinforce Learning

本文链接：https://blog.csdn.net/qq_43338695/article/details/104241412

版权

6 篇文章 0 订阅

订阅专栏

博主的github链接，欢迎大家来访问~：https://github.com/Sh-Zh-7

之前的一篇博文提到TD是我们现在用得非常多的一种算法。它的公式如下： $Q(S_t, A_t) = Q(S_t, A_t) +\alpha(G_t - Q(S_t, A_t) )$

之前一片博文讲到就讲到这里为止。我们并没有具体地提到我们该如何计算G。只讲了，我们的G跟我们的下一个状态有关。

这一个状态肯定是指我们的动作状态，也就是Q(st, ?)。问题是，我们的动作应该怎么选择呢？

1. TD算法的分类

根据之前讨论的结果，TD主要可以分为两类——一类叫做on-policy，另一类叫做off-policy。

之前也有提到，一般而言，我们选择动作，都是使用Epsilon贪心法更新的。所以可以预见，on-policy就是使用Epsilon贪心法进行动作和价值的选择。

那off-policy呢？与其给一个概率让他随机选择，不如直接就选择最大的Q值动作，这下子我们就有两个方法了。

SARSA就是使用Epsilon贪心法进行动作和状态的更新。既然是使用同一种方法进行更新，那不妨在获得下一个状态的时候，直接用Epsilon获取动作，然后，我们不仅仅用这个动作来更新状态，而且下一次当“下一个状态”变为“当前状态”的时候，我们也采用相同的动作。

这时候我们既需要更新状态，又要更新动作，伪代码如下：

QLearning就是我们之前所提到的on-policy算法，用数学公式表示就是：

$\small Q(S,A) = Q(S,A) + \alpha(R+\gamma \max_aQ(S',a) - Q(S,A))$

这个看上去比较简单，所以我直接贴伪代码了：

模型	特点	缺点	应用场景
SARSA	学习最优策略的同时还在探索	为保证收敛，需要在训练的时候降低Epsilon的大小	在线应用环境
QLearning	直接学习最优策略	1. 受样本数据的影响大 2. 容易陷入local optima	模拟环境

本篇博文在标题中已经提到：SARSA和QLearning，都是基于Q表的模型。

什么叫基于Q表的模型呢？就是在运行的过程中必须维护一张Q表。最后到具体生产运用的时候，我们的状态空间都是特别大的，内存中根本就无法维护这种Q表，因此，我们亟需一种新的模型。

关注