强化学习算法：Q-learning与Sarsa（区别与联系）

最新推荐文章于 2025-03-13 13:45:08 发布

条件反射104

最新推荐文章于 2025-03-13 13:45:08 发布

阅读量5.8k

点赞数 21

分类专栏：强化学习

本文链接：https://blog.csdn.net/qq_40317204/article/details/106392605

版权

强化学习专栏收录该内容

2 篇文章

订阅专栏

文章目录

Q - l e a r n i n g

与

S a r s a

都是基于

Q t a b l e

的算法，

Q - l e a r n i n g

属于离线学习策略，

S a r s a

属于在线学习策略。

Q-learning

$Q - l e a r n i n g$ 算法伪代码：在这里插入图片描述

Sarsa

$S a r s a$ 算法伪代码：
在这里插入图片描述

二者主要区别

$Q - l e a r n i n g$ 与 $S a r s a$ 的唯一区别在于 $Q t a b l e$ 的更新方式。

$Q - l e a r n i n g$ 更新 $Q$ 值的方式：
在这里插入图片描述
$S a r s$ a更新 $Q$ 值的方式：

区别详解

① 对于 $Q - l e a r n i n g$ 来说：在状态 $S_t$ 下，根据某策略（如 $\epsilon-greedy$ 策略）执行动作 $A_t$ 到达状态 $S_{t+1}$ 之后，利用在状态 $S_{t+1}$ 下采取所有动作中最大的那个 $Q(S_{t+1},a)$ ，来更新 $Q(S_t,a)$ ，但是其并不真正采取 $S_{t+1},a)$ 。对于在状态 $S_{t+1}$ 出选择要执行的动作可以理解为 $S_t=S_{t+1}$ ，即在状态 $S_{t+1}$ 下选择要执行的动作依然要使用相同的某策略（如 $\epsilon-greedy$ 策略）。

② 对于 $S a r s a$ 来说：在状态 $S_t$ 下，根据某策略（如 $\epsilon-greedy$ 策略）执行动作 $A_t$ 到达状态 $S_{t+1}$ 之后，此时用来更新 $S_t,a)$ 的 $Q$ 值的方法依然采用某策略（如 $\epsilon-greedy$ 策略），并且真正采取 $S_{t+1},a)$ 。

③ 我们要把选取动作和更新 $Q$ 表值区分开来，对于两个算法来说，选择动作都是采用某策略（如 $\epsilon-greedy$ 策略），区别就在于 $Q - l e a r n i n g$ 更新 $Q$ 值的方式为贪婪策略，即直接选择最大的 $Q(S_{t+1},a)$ ，而 $S a r s a$ 更新 $Q$ 值的方式依然为某策略（如 $\epsilon-greedy$ 策略）。

④ $Q - l e a r n i n g$ 选取动作和更新 $Q$ 表值的方法不同，而 $S a r s a$ 选取动作和更新 $Q$ 表值的方法相同。

⑤ $Q - l e a r n i n g$ 每次选取动作和更新 $Q t a b l e$ 后就会生成一个 $< s ， a ， r ， s^{'} >$ 序列，成为一个sample。同理， $S a r s a$ 每次选取动作和更新 $Q t a b l e$ 后会生成另一个 $< s ， a ， r ， s^{'} >$ 序列，成为另一个sample。