【RL】从on-policy到off-policy

最新推荐文章于 2023-10-27 23:05:26 发布

BananaScript

最新推荐文章于 2023-10-27 23:05:26 发布

阅读量720

点赞数

分类专栏： Reinforce Learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43338695/article/details/104268022

版权

这篇博客探讨了强化学习中的on-policy和off-policy策略，详细解释了两者的概念和区别。behavior policy用于探索环境并收集数据，而target policy则在数据上学习并优化。文章还介绍了coverage和importance sampling的数学背景，并提到了PPO和PPO2算法在off-policy学习中的应用。

摘要由CSDN通过智能技术生成

博主的github链接，欢迎大家来访问~：https://github.com/Sh-Zh-7

强化学习经典算法实现地址：https://github.com/Sh-Zh-7/reinforce-learning-impl

1. 什么是on-policy，什么是off-policy

其实这个概念我们之前已经提到了，这里不妨再提一下：

on-policy就是获取数据的动作和最终策略的动作是一致的，比如Sarsa。
off-policy就是获取数据的动作和最终策略的动作不一致，比如QLearning。

从这种定义我们也可以得知：我们的强化学习流程中涉及到两个关键流程：一个是选择用来获取数据的动作，另一个则是我们最终用来选择动作的策略。

2. Behavior policy和Target policy

on-policy其实挺符合我们直觉的，问题是off-policy为什么要有两种策略？

先给个定义好了:

用来与环境互动产生数据的策略，即在训练过程中做决策。这种策略叫做behavior policy。
而目标策略在行为策略产生的数据中不断学习、优化，即学习训练完毕后拿去应用的策略。这种策略叫做target policy。

强化学习方面主要有两个问题，一个叫做exploitation，另一个叫做exploration。我们获得数

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【RL】从on-policy到off-policy

1. 什么是on-policy，什么是off-policy其实这个概念我们之前已经提到了，这里不妨再提一下：on-policy就是获取数据的动作和最终策略的动作是一致的，比如Sarsa。 off-policy就是获取数据的动作和最终策略的动作不一致，比如QLearning。从这种定义我们也可以得知：我们的强化学习流程中涉及到两个关键流程：一个是选择用来获取数据的动作，另一个则是我们...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。