强化学习中的off-policy 和on-policy

最新推荐文章于 2024-10-08 11:47:04 发布

茄砸

最新推荐文章于 2024-10-08 11:47:04 发布

阅读量1w

点赞数 5

分类专栏：深度强化学习笔记文章标签：深度强化学习笔记

本文链接：https://blog.csdn.net/u013615687/article/details/71055870

版权

强化学习可以分成off-policy（离线）和on-policy（在线）两种学习方法，按照个人理解，判断一个强化学习是off-policy还是on-policy的依据在于生成样本的policy（value-funciton）和网络参数更新时的policy（value-funciton）是否相同。

off-policy的经典算法有Q-learning，而on-policy的经典算法有SARSA算法，两者的算法流程如下所示。

Q-learning算法：

initialize Q(s,a) randomly
for each episode:
    initialize state s;
    while s is not terminal:
        choose action a from s using ε-greedy strategy;
        observe reward r and next state s';
        Q(s,a) <- Q(s,a) + α[r + γ*maxQ(s

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

茄砸

关注关注

5
点赞
踩
22

收藏

觉得还不错? 一键收藏
3
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

强化学习&Actor-Critic8.2 | on-policy与off-policy

ASKCOS博客

03-20

923

Q-learning每次只需要执行一步动作得到(s,a,r,s’)就可以更新一次；由于a’永远是最优的那个action，因此估计的策略应该也是最优的，而生成样本时用的策略（在状态s选择的a）则不一定是最优的（可能是随机选择），因此是off-policy。基于experience replay的方法基本上都是off-policy的。 sarsa必须执行两次动作得到(s,a,r,s’,a’)才可以更新一次；而且a’是在特定策略π的指导下执行的动作，因此估计出来的Q(s,a)是在该策略π之下的Q-value，样.

深度强化学习off-policy类算法多进程加速训练实现(以TD3为例)

ZYunfei的博客

05-17

1583

思路与on-policy类算法的多进程加速不同，off-policy算法的子进程虽然也是用来探索环境，但是它收集到的数据可以随时添加进主进程的buffer中。另外，off-policy算法子进程探索环境的策略也不必与主进程等待训练的策略保持完全一致（off-policy名称由来）。听起来off-policy的多进程实现要更容易一些，但是实际做起来却更困难。实现框架：一个主进程+n个子进程+1个主进程的子线程功能：主进程：训练网络，评价网络； n个子进程：探索环境，收集数据传回主进程放入主进程的bu

3 条评论您还未登录，请先登录后发表或查看评论

强化学习on-policy跟off-policy的区别

caoyongsheng的博客

07-03

2856

on-policy：生成样本的policy（value function）跟网络更新参数时使用的policy（value function）相同。典型为SARAS算法，基于当前的policy直接执行一次动作选择，然后用这个样本更新当前的policy，因此生成样本的policy和学习时的policy相同，算法为on-policy算法。该方法会遭遇探索-利用的矛盾，光利用目前已知的最优选择，可能学不到...

Bourne强化学习笔记1：用简单例子说明Off-policy的思想与使用方法

linyijiong的博客

08-11

5388

本着ADEPT（Analogy / Diagram / Example / Plain / Technical Definition）的学习规律，本人给出直观理解、数学方法、图形表达、简单例子和文字解释，来介绍off-policy，而on-policy也将在本讲解过程中获得理解。( 在此假设大家已了解Markov Process Decision，动作概率，转移概率，Monte Carlo Met...

吴恩达教授深入分析：AI agent工作流多步迭代的模式

最新发布

bagell的博客

10-08

957

吴恩达教授，斯坦福大学计算机科学系和电子工程系副教授，人工智能实验室主任。是人工智能和机器学习领域国际上最权威的学者之一。DeepLearning.AI创始人，并开创性地提出了深度学习概念。本文是整理吴恩达教授在红杉资本的人工智能峰会(AI Ascent)上发表演讲的内容。他提到了AI agent工作流多步迭代的模式与基于人工评估基准测试的效果分析，对于AI agent设计模式的四种分类，包括检查、工具使用、规划、多智能体协作。在当前的技术实践中，大型语言模型的应用通常遵循一种非代理式工作流程。

On-Policy 强化学习与 Off-Policy 强化学习

weixin_37410657的博客

05-04

2853

On-Policy 强化学习和 Off-Policy 强化学习是强化学习中两种重要的学习方法。它们的主要区别在于智能体学习策略的方式。On-Policy 学习遵循当前策略进行学习和执行，而 Off-Policy 学习则使用不同的策略进行学习和执行。这两种方法各有优缺点，适用于不同的应用场景。无论是 On-Policy 还是 Off-Policy 学习，强化学习的目标都是找到一个最优策略，使得智能体在长期内能够获得最大的累积奖励。

强化学习算法中on-policy和off-policy

再来一下！

05-28

1461

特点On-PolicyOff-Policy策略类型行为策略和目标策略相同行为策略和目标策略不同策略稳定性依赖于当前策略的探索和利用平衡可使用不同策略进行探索，目标策略更灵活样本效率样本效率较低，需要大量的探索数据样本效率高，可利用离线数据和多策略数据计算复杂性相对简单，直接更新当前策略复杂度较高，需要处理行为策略和目标策略的差异代表算法Q-Learning, DQN, 重要性采样, 经验回放优缺点简单直接，可能陷入局部最优样本效率高，灵活性强，但可能引入估计偏差。

On-policy and Off-policy

Vic_Hao的博客

07-01

1057

转载自知乎：https://www.zhihu.com/question/56561878/answer/149892732 理想情况下，强化学习应该直奔最优策略而去–确定性的“状态-最优行为选择”。我们称之为target policy。这是on-policy的目标，但在实施时，会遭遇探索-利用的矛盾：光利用目前已知的最优选择，可能学不到最优解，收敛到局部最优；而加入探索又降低了学习效率。ε...

强化学习4——无模型控制model-free control （On-Policy learning：Sarsa和Off-policy learning：Q-learning）

渣渣屋

12-14

1371

文章目录前言无模型控制问题思路方法On-Policy learningMCSarsaOff-policy learningQ-learningOn-Policy learning 和 Off-policy learning的区别前言本文是学习周博雷老师的强化学习课程的心得体会。雷大佬的GItHub 无模型控制问题当我们不知道 MDP 模型的情况下，如何优化价值函数，得到最佳的策略。思路这里和有模型的控制策略的估计有一个不同是，我们这里使用MC方法来估算Q函数。其余的和无模型的控制是一样

强化学习中的on-policy和off-policy解释

Sufail的博客

03-22

4953

强化学习中的On-policy和off-policy的区别

深度强化学习 on-policy 和 off-policy

布谷AI的专栏

05-02

2467

当生成训练数据基于的Policy、目标值(target value)基于的Policy与当前学习的Policy网络参数一致时，为on-policy；否则为off-policy。

强化学习： On-Policy与 Off-Policy 以及 Q-Learning 与 SARSA

Call Me Hi Johnny~~

10-13

6891

刚接触强化学习，都避不开On Policy 与Off Policy 这两个概念。其中典型的代表分别是Q-learning 和 SARSA 两种方法。这两个典型算法之间的区别，一斤他们之间具体应用的场景是很多初学者一直比较迷的部分，在这个博客中，我会专门针对这几个问题进行讨论。以上是两种算法直观上的定义。我们都称 Q-Learning 是 Off Policy . SARSA 是 On Pol...

【强化学习】使用off-policy算法机器人抓取任务基准；生成对抗网络 GAN 就是强化学习

产业智能官

03-26

4195

本文转自雷克世界（ID：raicworld）编译 | 嗯~阿童木呀在本文中，我们探讨了用于基于视觉的机器人抓取操作的深度强化学习算法。无模型深度强化学习（RL）已经在一系列具有挑战性的环境中得到了成功应用，但算法的激增使得我们难以辨别出哪种特定的方法最适合于执行一个丰富的、多样化的任务，例如抓取。为了回答这一问题，我们提出了一个机器人抓取的模拟基准，强调了对于没见过的目标的策略学习和泛化。Off-

「off-policy强化学习」被低估！Google Brain等提出使用off-policy算法的「机器人抓取」任务基准

深度学习世界

03-14

1063

pbe近似_强化学习导论（十一）- Off-Policy的近似方法

weixin_33724759的博客

02-08

409

前两章(9、10 章)已经讲了on-policy 情形下对于函数近似的拓展，本章继续讲解 off-policy 下对函数近似的拓展，但是这个拓展比on-policy时更难更不同。在第六第七章中讲到的 off-policy 方法可以拓展到函数近似的情况下，但是这些方法在半梯度法下不能像在 on-policy 下一样良好地收敛。Off-policy 在函数逼近时有两大难点：update target ...

RL策略梯度方法之(三): Off-Policy Policy Gradient算法

qq_38293297的博客

10-04

1636

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。文章目录原理解析算法实现算法流程代码实现原理解析算法实现算法流程代码实现

同策略(On-policy)与异策略(Off-policy)

qingmuluoyang的博客

07-20

578

深度学习；强化学习

【强化学习篇】on-policy 和 off-policy 的区别

Thanours的博客

09-13

1875

然而，一旦policy更新参数后，这时两个policy是不一样了，之前采样数据data则不能继续使用了，需要重新再采样数据，这样效率很低。从on-policy梯度和off-policy梯度对比，很明显的是off-policy跟环境互动的是 θ‘ ，而不是θ，θ‘ 采样出来的数据与待更新的θ没有关系。KL 散度并不是θ和θ‘参数的距离，而是行为上的距离，即给同一个state的时候，action几率分布之间的差距。这里有个假设，pθ(st)和pθ′(st)分布是差不多的，比值接近1，可以略去。

近端策略优化算法PPO

weixin_44924725的博客

05-15

2598

在介绍PPO算法之前，首先需要介绍一下off-policy、on-policy概念。

强化学习中的off-policy是什么意思

05-19

强化学习中的off-policy是指，训练的策略与应用策略不同的情况。具体来说，在强化学习中，我们通常将学习策略称为行动策略（behavior policy），而在应用策略（target policy）下执行的策略则称为目标策略（target policy）。当行动策略与目标策略相同时，我们称之为on-policy(同策略)学习。而当行动策略与目标策略不同时，我们称之为off-policy(异策略)学习。在off-policy学习中，我们通常使用重要性采样（importance sampling）来估计目标策略下的价值函数。具体来说，我们可以使用行动策略下的采样轨迹来估计目标策略下的价值函数，从而实现学习过程。