强化学习——价值学习中的SARSA

前言

本文介绍的SARSA算法需要配合后续的策略学习内容使用,无法单独使用。

本文为《深度强化学习》的阅读笔记,如有错误,欢迎指出

SARSA

DQN等价值学习算法目的是拟合最优动作价值函数,从而控制智能体进行决策,而SARSA等算法的目的是拟合动作价值函数 Q π ( s t , a t ) Q_{\pi}(s_t,a_t) Qπ(st,at),用于评价策略 π \pi π的优劣,更具体的,SARSA常与策略网络一同用于策略学习中的Actor- Critic算法,策略网络代表了某种策略 π \pi π,其输入为状态,输出为每个动作的概率,策略网络用于控制智能体的运动,而SARSA算法用于训练价值网络,对策略网络的策略进行评估,帮助策略网络找到更好的策略。本文只总结SARSA算法。

如下图所示,SARSA算法用于训练Actor- Critic算法中的价值网络,价值网络拟合动作价值函数 Q π ( s t , a t ) Q_{\pi}(s_t,a_t) Qπ(st,at),其输入为状态 s t s_t st,输出空间大小为动作的个数,输出的数值代表每个动作的价值,即 Q π ( s t , a t ) Q_{\pi}(s_t,a_t) Qπ(st,at)

在这里插入图片描述

SARSA算法的训练流程

设价值网络的权重为 w n o w w_{now} wnow,价值网络的输出为 q ( s t , a t ; w n o w ) q(s_t,a_t;w_{now}) q(st,at;wnow)

  • 观测到当前状态 s t s_t st,根据策略网络得到智能体执行的动作 a t a_t at
  • 用价值网络计算 ( s t , a t ) (s_t,a_t) (st,at)的值: q ^ t = q ( x t , a t ; w n o w ) \hat q_t=q(x_t,a_t;w_{now}) q^t=q(xt,at;wnow)
  • 智能体执行动作 a t a_t at,环境返回新的状态 s t + 1 s_{t+1} st+1以及奖励 r t r_t rt
  • 将状态 s t + 1 s_{t+1} st+1输入到策略网络中,得到新的动作 a t + 1 a_{t+1} at+1
  • 用价值网络计算 ( s t + 1 , a t + 1 ) (s_{t+1},a_{t+1}) (st+1,at+1)的值: q ^ t + 1 = q ( x t + 1 , a t + 1 ; w n o w ) \hat q_{t+1}=q(x_{t+1},a_{t+1};w_{now}) q^t+1=q(xt+1,at+1;wnow)
  • 价值网络的拟合目标为贝尔曼方程,损失函数为 1 2 [ q ^ t − [ r t + γ q ^ t + 1 ] ] 2 \frac{1}{2}[\hat q_t-[r_t+\gamma \hat q_{t+1}]]^2 21[q^t[rt+γq^t+1]]2,利用反向传播更新家之和网络
  • 更新策略网络

由于策略网络的权重变化会导致策略发生变化,频繁的策略变动可能导致价值网络无法拟合动作价值函数,因此,通常是价值网络进行多次更新后,才更新策略网络。

由于价值网络拟合目标为贝尔曼方程,因此不存在最大化导致的高估问题,但仍然存在自举,可以引入目标网络解决,具体可浏览上一章节的强化学习——价值学习中的DQN

SARSA算法与DQN算法的区别

  • 两者的目的不同,DQN用于拟合最优动作价值函数,从而控制智能体,SARSA算法用于拟合动作价值函数,用于评价某个策略的好坏。
  • DQN拟合最优动作价值函数,因此为异策略,控制智能体的行为策略和目标策略可以不同,可以使用经验回放数组,而SARSA算法拟合动作价值函数,用于评价某种策略的好坏,为同策略,行为策略和目标策略一致,不可以使用经验回放数组。行为策略指控制智能体执行动作的策略,目标策略指网络需要拟合的策略。
  • DQN的优化使用最优贝尔曼方程,而SARSA使用贝尔曼方程。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值