【莫烦强化学习】视频笔记(三)1.什么是SARSA?

第7节 什么是SARSA?

SARSA是与Q学习类似的算法,关于Q学习的介绍在之前的笔记中,这里主要阐述:
【莫烦强化学习】视频笔记(二)1. 什么是Q-Learning?
与Q学习一样,SARSA学习也使用盗了“Q表”,通过更新Q表进行学习。
在这里插入图片描述
如上图所示,SARSA学习的更新也有两个部分:现实Q值与估计Q值。估计Q值是直接从Q表中选择的,但是现实Q值的估计方法与Q学习不同。
首先,我们有一个序列S、A、R、S‘、A’,当估计真实值的时候需要选择S‘的下一个动作A’,而动作A‘不是选择Q表中值最大的,而是选择的真正将要发生的那个,也就是带有一定随机性的动作。其他的同Q学习相同,等然采用估计值和现实值差值来更新原来的Q表。


与Q学习区别的理解

Q学习所采用的是Off-Policy异策略,就是更新时和采样的Q值不同。而SARSA学习是同策略的(On-Policy),都采用 ϵ \epsilon ϵ-贪婪(一般来说),具有更强的随机性。下面分别是Q学习(上面)和SARSA学习(下面)的伪代码:
在这里插入图片描述
在这里插入图片描述
可以看出,两者在更新的部分十分不同,Q学习与SARSA学习的过程描述如下:

  • ϵ \epsilon ϵ-Greedy取得状态 s s s下对应的动作 a a a → \rightarrow
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值