【RL】深入TD:基于QTable的SARSA和QLearning

博主的github链接,欢迎大家来访问~:https://github.com/Sh-Zh-7

强化学习经典算法实现地址:https://github.com/Sh-Zh-7/reinforce-learning-impl

之前的一篇博文提到TD是我们现在用得非常多的一种算法。它的公式如下:Q(S_t, A_t) = Q(S_t, A_t) +\alpha(G_t - Q(S_t, A_t) )

之前一片博文讲到就讲到这里为止。我们并没有具体地提到我们该如何计算G。只讲了,我们的G跟我们的下一个状态有关

这一个状态肯定是指我们的动作状态,也就是Q(st, ?)。问题是,我们的动作应该怎么选择呢?

 

1. TD算法的分类

根据之前讨论的结果,TD主要可以分为两类——一类叫做on-policy,另一类叫做off-policy。

  1.  所谓on-policy就是使用同一个策略来选择动作和价值函数
  2. 所谓off-policy就是使用两个策略来选择动作和价值函数

之前也有提到,一般而言,我们选择动作,都是使用Epsilon贪心法更新的。所以可以预见,on-policy就是使用Epsilon贪心法进行动作和价值的选择。

那off-policy呢?与其给一个概率让他随机选择,不如直接就选择最大的Q值动作,这下子我们就有两个方法了。

 

2. off-policy的SARSA

SARSA就是使用Epsilon贪心法进行动作和状态的更新。既然是使用同一种方法进行更新,那不妨在获得下一个状态的时候,直接用Epsilon获取动作,然后,我们不仅仅用这个动作来更新状态,而且下一次当“下一个状态”变为“当前状态”的时候,我们也采用相同的动作

这时候我们既需要更新状态,又要更新动作,伪代码如下:

 

3. on-policy的QLearning

QLearning就是我们之前所提到的on-policy算法,用数学公式表示就是:

\small Q(S,A) = Q(S,A) + \alpha(R+\gamma \max_aQ(S',a) - Q(S,A))

这个看上去比较简单,所以我直接贴伪代码了:

 

4. SARSA VS QLearning

模型特点缺点应用场景
SARSA学习最优策略的同时还在探索为保证收敛,需要在训练的时候降低Epsilon的大小在线应用环境
QLearning直接学习最优策略1. 受样本数据的影响大 2. 容易陷入local optima模拟环境

 

5. QTabel的缺点

本篇博文在标题中已经提到:SARSA和QLearning,都是基于Q表的模型。

什么叫基于Q表的模型呢?就是在运行的过程中必须维护一张Q表。最后到具体生产运用的时候,我们的状态空间都是特别大的,内存中根本就无法维护这种Q表,因此,我们亟需一种新的模型。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值