RL中的on-policy与off-policy的一点理解

笔者在刚开始学习RL的时候,对on-policy和off-policy的理解也一直不是很清晰。

我用q-leaening和Sarsa作对比来介绍这两者的区别:

Q-learning伪代码:


Sarsa伪代码

可以看出这两个的不同:

1: q-learning在选择动作 A 的时候用的是\varepsilon贪婪策略,这是算法对于环境做交互用的策略。但是在更新Q值的时候,并没有用到\varepsilon贪婪策略,而是一个新的策略,我把他称之为b策略。b策略是在状态 S' 下,选择Q最大的那个值,这个值对应的动作A* 可能相等于\varepsilon贪婪策略选择的动作A,也有可能不等。这是用两个策略完成agent对环境的交互和Q的更新,称之为  off-policy策略。

2: Sarsa在选择动作A 的时候用的策略也是\varepsilon贪婪策略,但是在看更新Q的时候,所用的是基于\varepsilon贪婪策略 选出的  A‘ 来更新Q值,用同一个策略完成agent对环境的交互和对Q值的更新,称之为on-policy策略。

放几个英文解释:

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值