强化学习On-policy vs Off-policy

最新推荐文章于 2024-05-28 12:19:40 发布

DeepGoAI

最新推荐文章于 2024-05-28 12:19:40 发布

阅读量743

点赞数

分类专栏：机器学习文章标签：强化学习机器学习人工智能

本文链接：https://blog.csdn.net/Willen_/article/details/121848119

版权

机器学习专栏收录该内容

30 篇文章 2 订阅

订阅专栏

强化学习中的On-policy和Off-policy主要区别在于更新策略的方式。On-policy算法依赖当前的Q值函数更新策略，而Off-policy则不依赖于学习过程中的策略，允许使用不同策略产生的数据进行学习。例如，蒙特卡洛方法中的ε-greedy策略是Off-policy的，因为它在更新时会引入随机操作，可能导致某些动作探索不足。

摘要由CSDN通过智能技术生成

强化学习On-policy vs Off-policy

这里我们讲讲强化学习中on-policy和off-policy的区别。
实际上这个区别非常简单，就是说如果算法在更新它的policy的时候，它是依赖于前面的Q value function的话，那么它就是on-policy的。反之如果它是依赖于随机的一个输入或者人为的操控，那么它就是一个off policy的。

具体来说就是由于在算法更新我们value fcuntion 的时候，实际上我们就是基于这个现有的policy去更新这个value的function，实际上就是你一直依赖于之前的那个policy。所以这叫 on-policy。

然后 off-policy 就是说我们不依赖于之前学习的policy 来进行一些决策，使得这些生成的数据，和基于这个policy 生成的数据不同。所以这就叫 off-policy.
举个例子就是那 Monte Carlo methods 为例。再这个例子里，我们看到这里面的更新用到了 $\epsilon$ -greedy policy 去随机的引入一些操作。这而这些随机的一些data就是off-policy的。为什么呢，因为算法再更新 policy function 的时候，会一直贪心地以 action value function 中值最大的action 为选择，这样就会让一些action 可能没有机会被访问到，说白了就是被explore 的机会就少了。

参考： http://incompleteideas.net/book/first/ebook/node54.html

DeepGoAI

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
强化学习On-policy vs Off-policy

强化学习On-policy vs Off-policy这里我们讲讲强化学习中on-policy和off-policy的区别。实际上这个区别非常简单，就是说如果算法在更新它的policy的时候，它是依赖于前面的Q value function的话，那么它就是on-policy的。反之如果它是依赖于随机的一个输入或者人为的操控，那么它就是一个off policy的。具体来说就是由于在算法更新我们value fcuntion 的时候，实际上我们就是基于这个现有的policy去更新这个value的functi
复制链接

扫一扫

专栏目录