RL-赵-(七)-不基于模型4：n-step Sarsa【TD算法】【Sarsa与MC的折中形式：采样n步就更新π】【Sarsa只需要一步的数据就更新；MC需等到一个episode数据搜集结束再更新】

u013250861

已于 2023-12-20 23:05:10 修改

阅读量851

点赞数 23

分类专栏： RL/强化学习文章标签：机器学习人工智能强化学习

于 2023-12-13 23:52:57 首次发布

本文链接：https://blog.csdn.net/u013250861/article/details/134984915

版权

RL/强化学习专栏收录该内容

50 篇文章 11 订阅

订阅专栏

在这里插入图片描述

n-Step Sarsa是Sarsa的一个变型或者是一个推广，因为n-step Sarsa包含了Sarsa和蒙特卡洛两种方法，也就是can unify Sarsa and Monte Carlo learning。

Action Value 的定义如下：
$q_\pi(s,a)=\mathbb{E}[G_t|S_t=s,A_t=a]$

其中的 discounted return $G_t$ 有很多种写法【 $G_t^{(1)}$ 表示第一种写法， $G_t^{(n)}$ 表示第 $n$ 中写法】：
$\begin{aligned} \text{Sarsa}\longleftarrow G_t^{(1)}& =R_{t+1}+\gamma q_{\pi}(S_{t+1},A_{t+1}), 【第t+1时间步后的所有reward都汇总到q_{\pi}(S_{t+1},A_{t+1})】\\ G_{t}^{(2)}& =R_{t+1}+\gamma R_{t+2}+\gamma^2q_\pi(S_{t+2},A_{t+2}), 【第t+2时间步后的所有reward都汇总到q_{\pi}(S_{t+2},A_{t+2})】\\ \text{:} \\ n\text{-step Sarsa}\longleftarrow G_t^{(n)}& =R_{t+1}+\gamma R_{t+2}+\cdots+\gamma^nq_\pi(S_{t+n},A_{t+n}), 【第t+n时间步后的所有reward都汇总到q_{\pi}(S_{t+n},A_{t+n})】 \\ \text{MC}\longleftarrow G_t^{(\infty)}& =R_{t+1}+\gamma R_{t+2}+\gamma^{2}R_{t+3}+\ldots \end{aligned}$

$R_{t+1},R_{t+2},...R_{t+n},...$ 表示 immediatly reward。
注意这里边所有含有上标的这些 $G_t$ 都是等价的。只不过它们之间的不同是基于它们怎么样去分解。
使用 $G_t^{(1)}$ 带入action value，得到Sarsa的action value公式：
$\begin{aligned}q_\pi(s,a)=\mathbb{E}[G_t^{(1)}|s,a]=\mathbb{E}[R_{t+1}+\gamma q_\pi(S_{t+1},A_{t+1})|s,a]\end{aligned}$
使用 $G_t^{(∞)}$ 带入action value，得到 MC learning 的 action value公式：
$q_{\pi}(s,a)=\mathbb{E}[G_{t}^{(\infty)}|s,a]=\mathbb{E}[R_{t+1}+\gamma R_{t+2}+\gamma^{2}R_{t+3}+\ldots|s,a]$
因此，一个中间的算法称为n-step Sarsa，其action value求解公式为：
$q_\pi(s,a)=\mathbb{E}[G_t^{(n)}|s,a]=\mathbb{E}[R_{t+1}+\gamma R_{t+2}+\cdots+\gamma^nq_\pi(S_{t+n},A_{t+n})|s,a]$

因此 n-step Sarsa算法 是：
$\begin{aligned} \color{red}{q_{t+1}(s_t,a_t)=q_t(s_t,a_t)-\alpha_t(s_t,a_t)\Big[q_t(s_t,a_t)-[r_{t+1}+\gamma r_{t+2}+\cdots+\gamma^nq_t(s_{t+n},a_{t+n})]\Big]. }\end{aligned}$

当 $n = 1$ 的时候，n-step Sarsa就变成了（one-step）Sarsa算法，如果 $n=\infty$ ，n-step Sarsa变成了MC learning算法。

在这里插入图片描述
对Sarsa的一些性质分析：

Sarsa只需要一步的数据，就更新，所以说是实时的；MC需要等到一个episode的数据搜集结束再更新，所以也是offline的；
n-step Sarsa折中，需要n步的数据： $s_t,a_t,r_{t+1},s_{t+1},a_{t+1},...,r_{t+n},s_{t+n},a_{t+n})$ ；
因为在时刻 $t$ ，不知道 $r_{t+n},s_{t+n},a_{t+n})$ ，所以在 $t$ 时间步，不能实现n-step Sarsa。我们必须等待 $t + n$ 时刻才能更新 $s_t,a_t)$ 的 q-value:
$\begin{aligned}q_{t+n}(s_t,a_t)&=q_{t+n-1}(s_t,a_t)\\&-\alpha_{t+n-1}(s_t,a_t)\Big[q_{t+n-1}(s_t,a_t)-[r_{t+1}+\gamma r_{t+2}+\cdots+\gamma^nq_{t+n-1}(s_{t+n},a_{t+n})]\Big]\end{aligned}$
因为MC learning和Sarsa实际上是n-step Sarsa的两个极端情况，因此，它的性质是Sarsa和MC learning性质的混合：
- 如果 n 较大，它的性质接近MC learning，因此具有一个较大的variance，但是有一个较小的bias；
- 如果 n 较小，它的性质接近Sarsa，因此由于initial guess具有一个相对大的bias，但是具有相对较低的variance。
最终， n-step Sarsa实际上还是在做policy evaluation，因此它需要和policy improvement step结合以寻找最优策略。

参考资料：
【强化学习】强化学习数学基础：时序差分方法

u013250861

关注

23
点赞
踩
19

收藏

觉得还不错? 一键收藏
1
评论
RL-赵-(七)-不基于模型4：n-step Sarsa【TD算法】【Sarsa与MC的折中形式：采样n步就更新π】【Sarsa只需要一步的数据就更新；MC需等到一个episode数据搜集结束再更新】

n-Step Sarsa是Sarsa的一个变型或者是一个推广，因为n-step Sarsa包含了Sarsa和蒙特卡洛两种方法，也就是can unify Sarsa and Monte Carlo learning。的时候，n-step Sarsa就变成了（one-step）Sarsa算法，如果。，n-step Sarsa变成了MC learning算法。其中的 discounted return。
复制链接

扫一扫