第7节 什么是SARSA?
SARSA是与Q学习类似的算法,关于Q学习的介绍在之前的笔记中,这里主要阐述:
【莫烦强化学习】视频笔记(二)1. 什么是Q-Learning?
与Q学习一样,SARSA学习也使用盗了“Q表”,通过更新Q表进行学习。
如上图所示,SARSA学习的更新也有两个部分:现实Q值与估计Q值。估计Q值是直接从Q表中选择的,但是现实Q值的估计方法与Q学习不同。
首先,我们有一个序列S、A、R、S‘、A’,当估计真实值的时候需要选择S‘的下一个动作A’,而动作A‘不是选择Q表中值最大的,而是选择的真正将要发生的那个,也就是带有一定随机性的动作。其他的同Q学习相同,等然采用估计值和现实值差值来更新原来的Q表。
与Q学习区别的理解
Q学习所采用的是Off-Policy,异策略,就是更新时和采样的Q值不同。而SARSA学习是同策略的(On-Policy),都采用 ϵ \epsilon ϵ-贪婪(一般来说),具有更强的随机性。下面分别是Q学习(上面)和SARSA学习(下面)的伪代码:
可以看出,两者在更新的部分十分不同,Q学习与SARSA学习的过程描述如下:
- ϵ \epsilon ϵ-Greedy取得状态 s s s下对应的动作 a a a → \rightarrow