博主的github链接,欢迎大家来访问~:https://github.com/Sh-Zh-7
强化学习经典算法实现地址:https://github.com/Sh-Zh-7/reinforce-learning-impl
之前的一篇博文提到TD是我们现在用得非常多的一种算法。它的公式如下:
之前一片博文讲到就讲到这里为止。我们并没有具体地提到我们该如何计算G。只讲了,我们的G跟我们的下一个状态有关。
这一个状态肯定是指我们的动作状态,也就是Q(st, ?)。问题是,我们的动作应该怎么选择呢?
1. TD算法的分类
根据之前讨论的结果,TD主要可以分为两类——一类叫做on-policy,另一类叫做off-policy。
- 所谓on-policy就是使用同一个策略来选择动作和价值函数。
- 所谓off-policy就是使用两个策略来选择动作和价值函数。
之前也有提到,一般而言,我们选择动作,都是使用Epsilon贪心法更新的。所以可以预见,on-policy就是使用Epsilon贪心法进行动作和价值的选择。
那off-policy呢?与其给一个概率让他随机选择,不如直接就选择最大的Q值动作,这下子我们就有两个方法了。
2. off-policy的SARSA
SARSA就是使用Epsilon贪心法进行动作和状态的更新。既然是使用同一种方法进行更新,那不妨在获得下一个状态的时候,直接用Epsilon获取动作,然后,我们不仅仅用这个动作来更新状态,而且下一次当“下一个状态”变为“当前状态”的时候,我们也采用相同的动作。
这时候我们既需要更新状态,又要更新动作,伪代码如下:
3. on-policy的QLearning
QLearning就是我们之前所提到的on-policy算法,用数学公式表示就是:
这个看上去比较简单,所以我直接贴伪代码了:
4. SARSA VS QLearning
模型 | 特点 | 缺点 | 应用场景 |
---|---|---|---|
SARSA | 学习最优策略的同时还在探索 | 为保证收敛,需要在训练的时候降低Epsilon的大小 | 在线应用环境 |
QLearning | 直接学习最优策略 | 1. 受样本数据的影响大 2. 容易陷入local optima | 模拟环境 |
5. QTabel的缺点
本篇博文在标题中已经提到:SARSA和QLearning,都是基于Q表的模型。
什么叫基于Q表的模型呢?就是在运行的过程中必须维护一张Q表。最后到具体生产运用的时候,我们的状态空间都是特别大的,内存中根本就无法维护这种Q表,因此,我们亟需一种新的模型。