强化学习笔记：Sarsa算法

UQI-LIUWJ

已于 2022-05-29 14:05:37 修改

阅读量2.4k

点赞数 4

分类专栏：强化学习文章标签：算法

于 2021-10-28 15:02:07 首次发布

本文链接：https://blog.csdn.net/qq_40206371/article/details/121013958

版权

强化学习专栏收录该内容

58 篇文章 54 订阅

订阅专栏

1 Sarsa(0)

Sarsa算法和TD类似，只不过TD是更新状态的奖励函数V，这里是更新Q函数强化学习笔记：Q-learning ：temporal difference 方法_UQI-LIUWJ的博客-CSDN博客

TD
Sarsa

该算法由于每次更新值函数需要知道当前的状态(state)、当前的动作(action)、奖励(reward)、下一步的状态(state)、下一步的动作(action)，即 (St,At,Rt+1,St+1,At+1) 这几个值，由此得名 Sarsa 算法。

1.1 表格形式的SARSA

SARSA算法由如下的贝尔曼方程推导出

其中：

2 n-step Sarsa

3 与环境交互

右边是环境，左边是 agent 。

我们每次跟环境交互一次之后呢，就可以 learn 一下，向环境输出 action，然后从环境当中拿到 state 和 reward。

Agent 主要实现两个方法：

一个就是根据 Q 表格去选择动作，输出 action。
另外一个就是拿到 (St,At,Rt+1,St+1,At+1) 这几个值去更新我们的 Q 表格。

4 Sarsa on-policy

Sarsa 是一种 on-policy 策略。

Sarsa 优化的是它实际执行的策略，它直接拿下一步会执行的 action (At+1) 来去优化 Q 表格，所以 on-policy 在学习的过程中，只存在一种确定的策略，它用这种确定的策略去做 action 的选取，也用一种这种确定的策略去做优化。

5 和Q-learning的区别

	Q-learning	SARSA
表格形式
表格形式中每一个单元的意义	最优动作价值函数Q*	某种策略 $\pi$ 对应的价值函数 $Q_\pi$
贝尔曼方程	$Q_(s_t,a_t)$ $\large =E_{S_{t+1}~p(\dot\|s_t,a_t)}[R_t+\gamma \max_{A\in A}Q_ (S_{t+1},A)\|S_t=s_t,A_t=a_t]$ 【对于t+1时刻的action，Q-learning选择Q最大的那个】	$Q_\pi(s_t,a_t)$ $=E_{S_{t+1},A_{t+1}}[R_t+\gamma Q_\pi (S_{t+1},A_{t+1})\|S_t=s_t,A_t=a_t]$ 【对于t+1时刻的action，SARSA根据 $\pi$ 来加权】
q的更新
贝尔曼放是关于什么的期望	方程右边的期望是关于下一时刻状态 $S_{t+1}$ 求的（给定 $s_t$ 和 $a_t$ ，t+1取什么状态是一个概率【这个由environment决定】）	方程右边的期望是关于下一时刻状态 $S_{t+1}$ 和下一时刻所采取的动作 $A_{t+1}$ 求的（给定 $s_t$ 和 $a_t$ ，t+1取什么状态是一个概率【这个由environment决定】；给定 $S_{t+1}$ ，采取什么动作也是一个概率【这个由策略 $\pi$ 决定】） ——>相比于Q-learning，SARSA依赖于具体的策略！
	异策略（Off policy）【因为Q-learning的目标是学习Q*，这个与具体的策略无关（换句话说，Q-learning t+1步之后的策略就是每次选择Q最大的action】	同策略（On policy）
是否允许经验回放	可以使用经验回放	不可以使用经验回放
神经网络形式
神经网络的训练流程	观测到当前状态 $s_t$ ，随机抽样得到一个action $a_t$ agent执行动作 $a_t$ 后，environment返回奖励 $r_t$ 和新的状态 $S_{t+1}$ 给定一个四元组 $(s_t,a_t,r_t,s_{t+1})$ ，我们计算出DQN的预测值 $\hat{q_t}=Q(s_t,a_t;w)$ 计算TD目标 $\hat{y_t}=r_t+\gamma \max_{\alpha \in A}Q(s_{t+1},a;w)$ 计算TD误差 $\delta_t=\hat{q_t}-\hat{y_t}$ 更新DQN参数 $w \leftarrow w-\alpha \delta_t \nabla_w Q(s_t,a_t;w)$ 【Q(s,a;w)是用来估算Q*(s,a)的】	观测到当前状态 $s_t$ ，根据当前策略 $\pi$ ，对action做采样 $a_t \sim \pi_{now}(\cdot\|st)$ agent执行动作 $a_t$ 后，environment返回奖励 $r_t$ 和新的状态 $S_{t+1}$ 根据当前策略做采样 $\widetilde{a_{t+1}} \sim \pi_{now}(\cdot\|s_{t+1})$ 给定一个五元组 $(s_t,a_t,r_t,s_{t+1},\widetilde{a_{t+1}})$ ，我们计算出DQN的预测值 $\hat{q_t}=Q(s_t,a_t;w)$ 计算TD目标 $\hat{y_t}=r_t+\gamma q(s_{t+1},\widetilde{a_{t+1}};w)$ 计算TD误差 $\delta_t=\hat{q_t}-\hat{y_t}$ 更新SARSA参数 $w \leftarrow w-\alpha \delta_t \nabla_w Q(s_t,a_t;w)$ 【Q(s,a;w)是用来估算Q $\pi$ (s,a)的】

6 关于经验回放的一个疑问（欢迎讨论）

在学习了DPG确定策略梯度后，有一个小问题想和大家探讨一下：就是像SARSA这样的同策略，就算是用了经验回放，会有很大的影响嘛？

因为我更新sarsa的五元组里面 $(s_t,a_t,r_t,s_{t+1},\widetilde{a_{t+1}})$ ，受到策略 $\pi$ 影响的就是 $(a_t,\widetilde{a_{t+1}})$ ， $s_t$ 是已知， $(r_t,s_{t+1})$ 是和环境交互的结果，与策略 $\pi$ 关系不大。

策略 $\pi$ 输出的是基于 $s_t$ 的action的一个概率分布。换句话说，不管策略 $\pi$ 的参数是什么，某一个动作a都能取到，只不过是取到的概率的不同。

那么这样的话，我agent实时交互得到动作 $(a_t,\widetilde{a_{t+1}})$ 和使用过去的经验 $(a_t,\widetilde{a_{t+1}})$ ，有什么区别嘛？（因为策略 $\pi$ 参数的变动，影响的也只是取到动作 $(a_t,\widetilde{a_{t+1}})$ 的概率，不代表 $\pi$ 参数更新后， $(a_t,\widetilde{a_{t+1}})$ 取不到啊。。。）

那这样的话，我像SARSA这样的同策略模型，也不是不可以使用经验回放？

UQI-LIUWJ

关注

4
点赞
踩
32

收藏

觉得还不错? 一键收藏
打赏
4
评论
强化学习笔记：Sarsa算法

1 Sarsa(0)Sarsa算法和TD类似，只不过TD是更新状态的奖励函数V，这里是更新Q函数强化学习笔记：Q-learning ：temporal difference 方法_UQI-LIUWJ的博客-CSDN博客TD Sarsa 该算法由于每次更新值函数需要知道当前的状态(state)、当前的动作(action)、奖励(reward)、下一步的状态(state)、下一步的动作(action)，即 (St,At,Rt+1,St+1,At+1)这几个值，由此..
复制链接

扫一扫