强化学习On-policy vs Off-policy

强化学习中的On-policy和Off-policy主要区别在于更新策略的方式。On-policy算法依赖当前的Q值函数更新策略,而Off-policy则不依赖于学习过程中的策略,允许使用不同策略产生的数据进行学习。例如,蒙特卡洛方法中的ε-greedy策略是Off-policy的,因为它在更新时会引入随机操作,可能导致某些动作探索不足。
摘要由CSDN通过智能技术生成

强化学习On-policy vs Off-policy

这里我们讲讲强化学习中on-policy和off-policy的区别。
实际上这个区别非常简单,就是说如果算法在更新它的policy的时候,它是依赖于前面的Q value function的话,那么它就是on-policy的。反之如果它是依赖于随机的一个输入或者人为的操控,那么它就是一个off policy的。

具体来说就是由于在算法更新我们value fcuntion 的时候,实际上我们就是基于这个现有的policy去更新这个value的function,实际上就是你一直依赖于之前的那个policy。 所以这叫 on-policy。

然后 off-policy 就是说我们不依赖于之前学习的policy 来进行一些决策,使得这些生成的数据,和基于这个policy 生成的数据不同。所以这就叫 off-policy.
举个例子就是那 Monte Carlo methods 为例。再这个例子里,我们看到这里面的更新用到了 ϵ \epsilon ϵ-greedy policy 去随机的引入一些操作。这而这些随机的一些data就是off-policy的。 为什么呢,因为算法再更新 policy function 的时候, 会一直贪心地以 action value function 中值最大的action 为选择,这样就会让一些action 可能没有机会被访问到,说白了就是 被explore 的机会就少了。

参考: http://incompleteideas.net/book/first/ebook/node54.html

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值