强化学习&Actor-Critic8.2 | on-policy与off-policy

Q-learning是off-policy方法,仅需一步动作更新,但策略可能非最优;SARSA是on-policy方法,需两次动作且遵循同一策略,提供稳定性。off-policy学习利用replay缓冲区加速学习但可能不稳,而on-policy学习从当前策略数据中学习,易于收敛。
摘要由CSDN通过智能技术生成

在这里插入图片描述
Q-learning每次只需要执行一步动作得到(s,a,r,s’)就可以更新一次;由于a’永远是最优的那个action,因此估计的策略应该也是最优的,而生成样本时用的策略(在状态s选择的a)则不一定是最优的(可能是随机选择),因此是off-policy。基于experience replay的方法基本上都是off-policy的。

sarsa必须执行两次动作得到(s,a,r,s’,a’)才可以更新一次;而且a’是在特定策略π的指导下执行的动作,因此估计出来的Q(s,a)是在该策略π之下的Q-value,样本生成用的π和估计的π是同一个,因此是on-policy。

当使用off-policy学习,agent能够从很多不同方面的资源学习例如replay-buffer,学习地更快但是off-policy学习经常不稳定,神经网络学习过程会发散

当使用on-policy学习, agent只从自己当前使用的策略下产生的数据训练,学习稳定,神经网络容易收敛

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

ASKCOS

你的鼓励是我最大的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值