强化学习实践（3）：Sarsa

最新推荐文章于 2024-01-07 02:05:37 发布

kuizhao8951

最新推荐文章于 2024-01-07 02:05:37 发布

阅读量226

点赞数

分类专栏：强化学习

本文链接：https://blog.csdn.net/kuizhao8951/article/details/102880069

版权

强化学习专栏收录该内容

13 篇文章 4 订阅

订阅专栏

前言

我们在强化学习实践（2）中学到了Q-learning每一步的首选通过ε -Greedy method得到在当前步 $s_t$ 的动作 $a_t$ 然后利用以下公式进行Q值更新
$\cdot Q(s_t,a_t)+a \cdot (R(s,a)+\gamma\cdot max_{a_{t+1}} \left \{Q(s_{t+1},a_{t+1})\right \})$
将上式进行简单的变形，就可以得到下面这个式子
$Q(s,a)=Q(s_t,a_t)+a \cdot[ \overbrace {R(s,a)+\gamma\cdot max_{a_{t+1}} \left \{Q(s_{t+1},a_{t+1})\right \} }^{\text{Q现实}}-\underbrace{Q(s_t,a_t)}_{\text{Q估计}}]$

也就是说，每一次更新，会计算下一个状态 $s_{t+1}$ 的最佳Q值，构成Q现实，然后和Q估计（也就是之前的Q值）相减得到更新增量。但是在下一个状态 $s_{t+1}$ 中，由于我们使用的是ε -Greedy （也就是有ε的概率随机选取一个动作，1-ε的概率选择Q值最大的动作），所以我们不一定选择上一个状态 $s_{t}$ 的Q现实中选择的 $a_{t+1}$ 。

SARSA

$S A R S A$ 五个字母是当前 $S$ (状态), $A$ (行动), $R$ (奖励) 与下一步 $S^{'}$ (状态) $A^{'}$ (行动) 的组合，即我们不仅需要知道当前的 $S, A, R$ 还需要知道下一步的 $S^{'}$ 和 $A^{'}$ 。¹

$S A R S A$ 和 $Q - l e a r n i n g$ 的算法十分相似，只是在更新公式上不同
$\cdot Q(s_t,a_t)+a \cdot (R(s,a)+\gamma\cdot Q(s_{t+1},a_{t+1}))$
$\cdot Q(s_t,a_t)+a \cdot (R(s,a)+\gamma\cdot max_{a_{t+1}} \left \{Q(s_{t+1},a_{t+1})\right \})$
这公式上的不同也使得SARSA是 同策略(On Policy) 的算法，因为他是在行动中学习的，而且至始至终只有一个Policy. 使用了两次greedy-epsilon 方法来选择出了Q(S,A)和q(S’,A’）

而Q learning **异策略Off Policy)**的算法，QLearning选择Q(S,A)用了greedy方法，而计算A(S’,A’)时用的是max方法，而真正选择的时候又不一定会选择max的行动, 所以 Q learning 学习和行动分别采用了两套不同的Policy²

SARSA算法：

给定参数 $\gamma$ 和reward矩阵R（或reward-fuction，给定 $a ∣ s$ 得到reward）以及学习率 $a$ （注：关于学习率设定，有的资料会考虑历史学习的结果，即学习率小于1；也有的资料并未考虑历史学习的结果，相当于学习率设置为1）
令Q表为0或者随机分布
Repet(for each episode):
Initialize $s$
- Repeat (for each step of episode):
  - Choose possible $a$ from $s$ use policy deriverd from $Q$ (e.g. ,ε贪婪方法(ε -Greedy method) ）
  - Take action $a$ ,get observe $r$ , $s^{'}$
  - Choose possible $a^{'}$ from $s^{'}$ use policy deriverd from $Q$ (e.g. ,ε贪婪方法(ε -Greedy method) ）
  - $\cdot Q(s_t,a_t)+a \cdot (R(s,a)+\gamma\cdot Q(s_{t+1},a_{t+1}))$
  - $\leftarrow s_{t+1},a\leftarrow a_{t+1}$
- until $s$ is terminal

SARSA(lambda)

上面我们说到的SARSA是单步更新的RL算法，每次走一步，更新一次Q值，这种单步更新在一开始没有找到宝藏得到reward的时候，虽然有执行Q值更新，但是实际上都是为0，只有在找到宝藏的时候，找到宝藏的前一步Q值被更新。我们之前讲过RL分为单步更新和回合更新，想一想，如果在找到宝藏的时候，对所有之前走过的路程Q值都予以更新，使得他们更加容易被选择，岂不美哉。但是,这样其实也有不足，因为若寻宝过程中因为信息不足园地绕圈，那么会学习到错误的Q值，所以SARSA(lambda)就应运而生。

此处的 $\lambda$ 和之前计算Q现实时，对下个状态的Q值进行衰减的目的相似，使得越靠近宝藏的步骤Q值更新的幅度更大。

Sarsa(lambda)算法中多了一个矩阵E (eligibility trace)，它是用来保存在路径中所经历的每一步

SARSA(lambda)算法：

给定参数 $\gamma$ 和reward矩阵R（或reward-fuction，给定 $a ∣ s$ 得到reward）以及学习率 $a$ （注：关于学习率设定，有的资料会考虑历史学习的结果，即学习率小于1；也有的资料并未考虑历史学习的结果，相当于学习率设置为1）
令Q表为0或者随机分布
Repet(for each episode):
$E(s,a)=0,\text{for all s} \in S,a \in A(s)$
Initialize $s$
- Repeat (for each step of episode):
  - Choose possible $a$ from $s$ use policy deriverd from $Q$ (e.g. ,ε贪婪方法(ε -Greedy method) ）
  - Take action $a$ ,get observe $r$ , $s^{'}$
  - Choose possible $a^{'}$ from $s^{'}$ use policy deriverd from $Q$ (e.g. ,ε贪婪方法(ε -Greedy method) ）
  - $\delta =R(s,a)+\gamma\cdot Q(s_{t+1},a_{t+1})-Q(s_t,a_t)$
  - $E (s, a) = E (s, a) + 1$
  - $\text{for all s} \in S,a \in A(s):$
    - $Q(s,a)\leftarrow Q(s,a)+a \delta E(s,a)$
    - $\leftarrow \gamma \lambda E(s,a)$
  - $\leftarrow s_{t+1},a\leftarrow a_{t+1}$
- until $s$ is terminal

这里的 $E$ 在每一步都会被 $\gamma\lambda$ 衰减： $\leftarrow \gamma \lambda E(s,a)$
单步实时跟新之前每一步的Q值，这加快了学习速度。

Code

环境和之前的一样

在文章中可能经常会遇到 $s_t$ ， $a_t$ 和 $s$ ， $a$ 的混用，同理 $s_{t+1}$ ， $a_{t+1}$ 和 $s^{'}$ ， $a^{'}$ ↩︎
Hongtao洪滔．AI学习笔记——Sarsa算法[J]https://www.jianshu.com/p/9bbe5aa3924b．2018.08.13 ↩︎

kuizhao8951

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
强化学习实践（3）：Sarsa

前言我们在强化学习实践（2）中学到了Q-learning每一步的首选通过ε -Greedy method得到在当前步sts_tst的动作ata_tat然后利用以下公式进行Q值更新Q(s,a)=(1−a)⋅Q(st,at)+a⋅(R(s,a)+γ⋅maxat+1{Q(st+1,at+1)})Q(s,a)=(1-a) \cdot Q(s_t,a_t)+a \cdot (R(s,a)+\gamm...
复制链接

扫一扫

专栏目录