on-policy与off-policy；确定性策略与随机策略

最新推荐文章于 2024-08-10 11:44:01 发布

普通攻击往后拉

最新推荐文章于 2024-08-10 11:44:01 发布

阅读量5.5k

点赞数 9

分类专栏：强化学习导论

本文链接：https://blog.csdn.net/weixin_43483381/article/details/118114149

版权

强化学习导论专栏收录该内容

10 篇文章 9 订阅

订阅专栏

本文探讨了强化学习中on-policy与off-policy的区别。on-policy方法要求目标策略与行为策略一致，更新需依赖最新交互数据，而off-policy允许使用不同策略收集的数据进行更新，可能包括ε-greedy策略或历史数据。此外，介绍了确定性策略与随机性策略，前者结合随机性方法增加探索，常见于基于值的算法，后者是基于概率的动作选择，常见于基于策略的算法。

摘要由CSDN通过智能技术生成

1 on-policy与off-policy

之前一直搞不清楚on-policy和off-policy是什么区别，在查阅了各种公众号和博客、论坛之后，决定总结一下on-policy和off-policy的区别。

首先，如下图所示，on-policy和off-policy都是on-line强化学习策略更新中的一种。on-line和off-line最明显的区别就是，在一次policy.learn()之后，即在一次参数更新之后，on-line方法一定要去再次与环境交互获得新数据，而off-line则选择继续吃老本训练。

其次，关于on-policy和off-policy的区别，sutton的书中说“on-policy就是agent的目标策略与行为策略一致，反之就是off-policy”，这一句话乍一听很好理解，但是具体到算法上又会让人很难区分。

具体到代码层面的理解：
on-policy: 选择动作的策略与即将更新的策略网络是一致的，注意需要是完全一致的。换句话理解，更新策略自己的网络，得靠策略自己生成的数据去更新，不能靠其他时刻的策略。
off-policy: 选择动作的策略与即将更新的策略网络是不一致的，注意这个不一致可能有很多方面，比如在原始策略上加一个 $\epsilon$ -greedy，那就是两个策略了；还比如用好几个learn（）之前的策略采集的数据，更新现在的策略，也是off-policy。

在这里插入图片描述