Sarsa和q-learning的区别

最新推荐文章于 2023-10-11 15:30:09 发布

JIANG Li

最新推荐文章于 2023-10-11 15:30:09 发布

阅读量311

点赞数

分类专栏： RL 文章标签：深度学习

原文链接：https://blog.csdn.net/qq_40317204/article/details/106392605?utm_medium=distribute.pc_relevant.none-task-blog-baidujs_title-0&spm=1001.2101.3001.4242

版权

RL 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

今天看到一道强化学习面试题目，才知道即使自己学了这么多理论，但是肯定是学的倒懂不懂的状态，记录以下。

伪代码介绍

Q-learning: off policy
Sarsa: on policy
在这里插入图片描述

主要区别

Q-learning: off policy, Sarsa: on policy
其实主要区别是他们两个更新Q_table的方式：
Q-Learning:
$Q\left(S_{t}, A_{t}\right) \leftarrow Q\left(S_{t}, A_{t}\right)+\alpha\left[R_{t+1}+\gamma \max _{a} Q\left(S_{t+1}, a\right)-Q\left(S_{t}, A_{t}\right)\right]$
Sarsa:
$Q\left(S_{t}, A_{t}\right) \leftarrow Q\left(S_{t}, A_{t}\right)+\alpha\left[R_{t+1}+\gamma Q\left(S_{t+1}, A_{t+1}\right)-Q\left(S_{t}, A_{t}\right)\right]$

区别详解

其实区别我们可以从伪代码就可以看出来。

对于Q-Learning来说，在状态 $S_t$ 下，根据某个策略( $\epsilon-greedy$ )执行 $S_{t+1}$ 之后，利用在状态 $S_{t+1}$ 下采取所有动作中最大的那个 $Q\left(S_{t+1}, a\right),$ 来更新 $Q\left(S_{t}, a\right),$ 但是其实不真正采取 $\left(S_{t+1}, a\right)$ 。对于在状态 $S_{t+1}$ 出选择要执行的动作可以理解为 $S_{t}=S_{t+1},$ 即在状态 $S_{t+1}$ 下选择要执行的动作依然要使用相同的某策略（如 $\epsilon-g r e e d y$ 策略）。
对于Sarsa来说：在状态 $S_{t}$ 下，根据某策略 (如 $\epsilon-g r e e d y$ 策略）执行动作 $A_{t}$ 到达状态 $S_{t+1}$ 之后，此时用来更新 $\left(S_{t}, a\right)$ 的 $Q$ 值的方法依然采用某策略 $($ 如 $\epsilon-g r e e d y$ 策略 $),$ 并且真正采取 $\left(S_{t+1}, a\right)$
我们要把选取动作和更新 $Q$ 表值区分开来，对于两个算法来说，选择动作都是采用某策略 $($ 如 $\epsilon$ greedy策略) , 区别就在于 $Q -$ learning更新 $Q$ 值的方式为贪婪策略，即直接选择最大的 $Q\left(S_{t+1}, a\right),$ 而 $S a r s a$ 更新 $Q$ 值的方式依然为某策略 $($ 如 $\epsilon-g r e e d y$ 策略）.
$Q -$ learning选取动作和更新 $Q$ 表值的方法不同，而 $S a r s a$ 选取动作和更新 $Q$ 表值的方法相同。
(5) $Q -$ learning每次选取动作和更新 $Q$ table后就会生成一个 $s^{\prime}>$ 序列，成为一个 sample $。$ 同理, $S a r s a$ 每次选取动作和更新 $Q$ table后会生成另一个 $s^{\prime}>$ 序列，成为另一个sample。

图解

Sarsa
在这里插入图片描述
Q-Learning

环境的部分我就不细说了，下面说一说Q-learning和Sarsa在解决这个问题的区别在哪里。

区别在于选择action(当前动作和下一个状态采取的动作）

Q-learning每次使用epsilon-greedy的方法，选择当前状态的action，

在更新Q[state][action]的时候，是使用Q[next_state][next_acion]，其中next_action是使Q[next_state][next_action]最大的动作。
然后state=next_state，动作再重新选择，next_acion值用于更新Q值。

Sarsa则不同。使用epsilon-greedy选择next_state的next_action，然后用Q[next_state][next_acion]来更新Q[state][action]，更新的时候：
state=next_state, action=next_action

从中就可以看出两个算法的区别，Sarsa是一种on-policy算法，Q-learning是一种off-policy算法。
Sarsa选取的是一种保守的策略，他在更新Q值的时候已经为未来规划好了动作，对错误和死亡比较敏感。而Q-learning每次在更新的时候选取的是最大化Q的方向，而当下一个状态时，再重新选择动作，Q-learning是一种鲁莽、大胆、贪婪的算法，对于死亡和错误并不在乎。
在实际中，如果你比较在乎机器的损害就用一种保守的算法，在训练时，可以减少机器损害的次数。
可以看一下代码的运行结果:

Sarsa:选择的是一条最安全的道路，远离陷阱。
————————————————
版权声明：本文为CSDN博主「赵YN的csdn」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/qq_39004117/article/details/81705845

JIANG Li

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Sarsa和q-learning的区别

今天看到一道强化学习面试题目，才知道即使自己学了这么多理论，但是肯定是学的倒懂不懂的状态，记录以下。文章目录伪代码介绍主要区别区别详解图解伪代码介绍Q-learning: off policySarsa: on policy主要区别Q-learning: off policy, Sarsa: on policy其实主要区别是他们两个更新Q_table的方式：Q-Learning:Q(St,At)←Q(St,At)+α[Rt+1+γmax⁡aQ(St+1,a)−Q(St,At)].
复制链接

扫一扫