SARSA 算法

焦糖不叮

已于 2023-09-07 10:25:14 修改

阅读量494

点赞数

分类专栏：强化学习文章标签：深度学习人工智能

于 2023-09-04 11:20:27 首次发布

本文链接：https://blog.csdn.net/qq_55223275/article/details/132664341

版权

强化学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

SARSA，它是一种 TD 算法，SARSA 的目的是学习动作价值函数 $Q_π(s, a)$ 。
$Q_π$ 通常被用于评价策略的好坏，而非用于控制智能体。 $Q_π$ 常与策略函数 π 结合使用，被称作 actor-critic（演员—评委）方法。策略函数 π 控制智能体，因此被看做“演员”；而 $Q_π$ 评价 π 的表现，帮助改进 π，因此 $Q_π$ 被看做“评委”。Actor-critic 通常用 SARSA 训练“评委” $Q_π$ 。

SARSA 算法的推导

SARSA 算法由下面的贝尔曼方程推导出：
在这里插入图片描述

用一个神经网络 q(s, a; w) 来近似 $Q_π(s, a)$ 。
给定当前状态 $s_t$ ，智能体执行动作 $a_t$ ，环境会给出奖励 $r_t$ 和新的状态 $s_{t+1}$ 。然后基于 $s_{t+1}$ 做随机抽样，得到新的动作 $\tilde{a_{t+1}} \sim π(· | s_{t+1})$ 。定义 TD 目标：
$\hat{y_t} ≜ r_t + \gamma \cdot q(s_{t+1}, \hat{a_{t+1}}; w)$
我们鼓励 $q(s_t, a_t; w)$ 接近 TD 目标 $\hat{y_t}$ ，所以定义损失函数：
$\frac{1}{2} [q(s_t, a_t;w) - \hat{y_t}]^2$
损失函数的变量是 w，而 $\hat{y_t}$ 被视为常数。（尽管 $\hat{y_t}$ 也依赖于参数 w，但这一点被忽略掉。）设 $\hat{q_t}$ = $q(s_t, a_t; w)$ 。损失函数关于 w 的梯度是：
$\nabla_{w} L(w) = \underbrace{(\hat{q_t} - \hat{y_t})}_{TD误差\delta_t} \cdot \nabla_{w}q(s_t, a_t; w)$
做一次梯度下降更新 w：
$\leftarrow w - \alpha \cdot \delta_t \cdot \nabla_wq(s_t, a_t; w)$

训练流程

设当前价值网络的参数为 $w_{now}$ ，当前策略为 $π_{now}$ 。每一轮训练用五元组 $(s_t, a_t, r_t, s_{t+1}, \tilde{a_{t+1}})$ 对价值网络参数做一次更新。

观测到当前状态 $s_t$ ，根据当前策略做抽样： $a_t ∼ π_{now}(· | s_t)$ 。
用价值网络计算 $s_t, a_t)$ 的价值：
$\hat{q_t} = q(s_t, a_t; w_{now})$
智能体执行动作 $a_t$ 之后，观测到奖励 $r_t$ 和新的状态 $s_{t+1}$ 。
根据当前策略做抽样： $\hat{a_{t+1}} ∼ π_{now}(· |s_{t+1})$ 。注意， $\hat{a_{t+1}}$ 只是假想的动作，智能体不予执行。
用价值网络计算 $(s_{t+1}, \hat{a_{t+1}})$ 的价值：
$\hat{q_{t+1}} = q(s_{t+1}, \hat{a_{t+1}};w_{now})$
计算 TD 目标和 TD 误差：
$\hat{y_t} = r_t + \gamma \cdot \hat{q_{t+1}}, \delta_t = \hat{q_t} - \hat{y_t}$
对价值网络 q 做反向传播，计算 q 关于 w 的梯度：
$\nabla_{w}q(s_t, a_t; w_{now})$
更新价值网络参数：
$w_{new} \leftarrow w_{now} - \alpha \cdot \delta_t \cdot \nabla_wq(s_t, a_t; w_{now})$
用某种算法更新策略函数。该算法与 SARSA 算法无关