强化学习——价值学习中的SARSA

最新推荐文章于 2022-09-02 15:10:08 发布

菜到怀疑人生

最新推荐文章于 2022-09-02 15:10:08 发布

阅读量1.1k

点赞数

分类专栏：深度学习文章标签：算法机器学习深度学习

本文链接：https://blog.csdn.net/dhaiuda/article/details/122632846

版权

深度学习专栏收录该内容

58 篇文章 31 订阅

订阅专栏

文章目录

前言
SARSA
- SARSA算法的训练流程
- SARSA算法与DQN算法的区别

前言

本文介绍的SARSA算法需要配合后续的策略学习内容使用，无法单独使用。

本文为《深度强化学习》的阅读笔记，如有错误，欢迎指出

SARSA

DQN等价值学习算法目的是拟合最优动作价值函数，从而控制智能体进行决策，而SARSA等算法的目的是拟合动作价值函数 $Q_{\pi}(s_t,a_t)$ ，用于评价策略 $\pi$ 的优劣，更具体的，SARSA常与策略网络一同用于策略学习中的Actor- Critic算法，策略网络代表了某种策略 $\pi$ ，其输入为状态，输出为每个动作的概率，策略网络用于控制智能体的运动，而SARSA算法用于训练价值网络，对策略网络的策略进行评估，帮助策略网络找到更好的策略。本文只总结SARSA算法。

如下图所示，SARSA算法用于训练Actor- Critic算法中的价值网络，价值网络拟合动作价值函数 $Q_{\pi}(s_t,a_t)$ ，其输入为状态 $s_t$ ，输出空间大小为动作的个数，输出的数值代表每个动作的价值，即 $Q_{\pi}(s_t,a_t)$ 。

在这里插入图片描述

SARSA算法的训练流程

设价值网络的权重为 $w_{now}$ ，价值网络的输出为 $q(s_t,a_t;w_{now})$

观测到当前状态 $s_t$ ，根据策略网络得到智能体执行的动作 $a_t$
用价值网络计算 $s_t,a_t)$ 的值： $\hat q_t=q(x_t,a_t;w_{now})$
智能体执行动作 $a_t$ ，环境返回新的状态 $s_{t+1}$ 以及奖励 $r_t$
将状态 $s_{t+1}$ 输入到策略网络中，得到新的动作 $a_{t+1}$
用价值网络计算 $s_{t+1},a_{t+1})$ 的值： $\hat q_{t+1}=q(x_{t+1},a_{t+1};w_{now})$
价值网络的拟合目标为贝尔曼方程，损失函数为 $\frac{1}{2}[\hat q_t-[r_t+\gamma \hat q_{t+1}]]^2$ ，利用反向传播更新家之和网络
更新策略网络

由于策略网络的权重变化会导致策略发生变化，频繁的策略变动可能导致价值网络无法拟合动作价值函数，因此，通常是价值网络进行多次更新后，才更新策略网络。

由于价值网络拟合目标为贝尔曼方程，因此不存在最大化导致的高估问题，但仍然存在自举，可以引入目标网络解决，具体可浏览上一章节的强化学习——价值学习中的DQN

SARSA算法与DQN算法的区别

两者的目的不同，DQN用于拟合最优动作价值函数，从而控制智能体，SARSA算法用于拟合动作价值函数，用于评价某个策略的好坏。
DQN拟合最优动作价值函数，因此为异策略，控制智能体的行为策略和目标策略可以不同，可以使用经验回放数组，而SARSA算法拟合动作价值函数，用于评价某种策略的好坏，为同策略，行为策略和目标策略一致，不可以使用经验回放数组。行为策略指控制智能体执行动作的策略，目标策略指网络需要拟合的策略。
DQN的优化使用最优贝尔曼方程，而SARSA使用贝尔曼方程。

菜到怀疑人生

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习——价值学习中的SARSA

文章目录前言SARSASARSA算法的训练流程SARSA算法与DQN算法的区别前言本文介绍的SARSA算法需要配合后续的策略学习内容使用，无法单独使用。本文为《深度强化学习》的阅读笔记，如有错误，欢迎指出SARSADQN等价值学习算法目的是拟合最优动作价值函数，从而控制智能体进行决策，而SARSA等算法的目的是拟合动作价值函数Qπ(st,at)Q_{\pi}(s_t,a_t)Qπ(st,at)，用于评价策略π\piπ的优劣，更具体的，SARSA常与策略网络一同用于策略学习中的Actor- C
复制链接

扫一扫