时序差分算法：Sarsa&Qlearning

最新推荐文章于 2024-05-06 17:00:12 发布

ggjkd

最新推荐文章于 2024-05-06 17:00:12 发布

阅读量516

点赞数

分类专栏：强化学习文章标签：强化学习

本文链接：https://blog.csdn.net/ggjkd/article/details/114698233

版权

强化学习专栏收录该内容

8 篇文章 3 订阅

订阅专栏

一、时序差分法

通过学习后继状态s’的值函数来逼近当前状态值函数，实现对不完整轨迹的学习（因为仅估计后继状态s’）。
$V\left(s_{t}\right)=V\left(s_{t}\right)+\alpha\left(R_{t+1}+\gamma V\left(s_{t+1}\right)-V\left(s_{t}\right)\right)$
和MC相似，但MC的全局历史轨迹均值回报G用下式代替：
$R_{t+1}+\gamma V\left(s_{t+1}\right)$

二、 Sarsa

在线策略：行为策略（一般为epsilon-greedy）和目标策略（一般为epsilon-greedy）相同。
$Q\left(s_{t}, a_{t}\right)=Q\left(s_{t}, a_{t}\right)+\alpha\left(R_{t+1}+\gamma Q\left(s_{t+1}, a_{t+1}\right)-Q\left(s_{t}, a_{t}\right)\right)$
过程：智能体根据行为策略P(a|s)服从 epsilon-greedy方法选择动作a，环境根据动作a给出状态跳转至s’，并给出立即回报Rt+1，智能体根据新的s‘根据策略P(a|s)服从 epsilon-greedy得出动作at+1，按照策略改进公式更新值函数。学习完后，智能体根据值函数表去索引最大值函数对应的行为作为最优策略。

三、 Q-learning

离线策略：行为策略（一般为epsilon-greedy）和目标策略（一般为greedy）不相同。
$Q\left(s_{t}, a_{t}\right)=Q\left(s_{t}, a_{t}\right)+\alpha\left(R_{t+1}+\gamma \max Q\left(s_{t+1}, a_{t+1}\right)-Q\left(s_{t} a_{t}\right)\right)$
过程：智能体根据行为策略P1(a|s)服从 epsilon-greedy方法从值函数表中选择动作a，环境根据动作a给出状态跳转至s’，并给出立即回报Rt+1，智能体根据新的s‘根据目标策略P2(a|s)服从greedy得出动作at+1，按照策略改进公式更新值函数。学习完后，智能体根据值函数表去索引最大值函数对应的行为作为最优策略。
注1：Q-learning是离线策略，但不同于离线MC需要进行重要性采样，所以Q-learning是RL进程中的一个重要离线算法。
注2：不管是Q-learning还是Saras，至始至终，都只有一个值函数表被优化，只不过优化值函数的策略和得出轨迹的策略是不是同一个策略，决定了他们是离线还是在线。

ggjkd

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
时序差分算法：Sarsa&Qlearning

一、时序差分法通过学习后继状态s’的值函数来逼近当前状态值函数，实现对不完整轨迹的学习（因为仅估计后继状态s’）。V(st)=V(st)+α(Rt+1+γV(st+1)−V(st))V\left(s_{t}\right)=V\left(s_{t}\right)+\alpha\left(R_{t+1}+\gamma V\left(s_{t+1}\right)-V\left(s_{t}\right)\right)V(st)=V(st)+α(Rt+1+γV(st+1)−V(st))和MC相似
复制链接

扫一扫