强化学习记录-离线策略与在线策略、离线强化学习的区别

最新推荐文章于 2024-12-30 07:30:00 发布

程序猿小菜鸡

最新推荐文章于 2024-12-30 07:30:00 发布

阅读量1k

点赞数 6

文章标签： python

本文链接：https://blog.csdn.net/qq_45173177/article/details/138531957

版权

在线策略（on-policy）算法和离线策略（off-policy）算法的共同点为：智能体在训练过程中可以不断和环境交互，得到新的反馈数据。

区别主要在于在线策略算法会直接使用这些反馈数据，而离线策略算法会先将数据存入经验回放池中，需要时再采样。

离线强化学习（offline reinforcement learning）的目标是，在智能体不和环境交互的情况下，仅从已经收集好的确定的数据集中，通过强化学习算法得到比较好的策略。

离线强化学习在从经验池中回放经验后学习到某策略但不更新，而离线策略则会更新。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

程序猿小菜鸡

关注关注

6
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

辨析离线算法与在线算法

晓风残月xj

08-17

2763

离线算法算法设计策略都是基于在执行算法前输入数据已知的基本假设，也就是说，对于一个离线算法，在开始时就需要知道问题的所有输入数据，而且在解决一个问题后就要立即输出结果，通常将这类具有问题完全信息前提下设计出的算法成为离线算法( off line algorithms) 在线算法在计算机科学中，一个在线算法是指它可以以序列化的方式一个个的处理输入，也就是说在开始时

【强化学习】强化学习中，离线策略和在线策略的区别是什么？请从原理和例子进行解释。

wq6qeg88的博客

08-07

2108

离线策略和在线策略在强化学习中的应用各有优劣。离线策略通过利用历史数据和经验回放来提升学习效率，适合在数据充足且需要减少实际环境交互的场景。而在线策略则依赖于实时与环境的交互，通过不断更新和改进策略来适应动态环境，适合需要实时决策和反馈的场景。理解这两者的区别有助于选择合适的强化学习方法来解决不同的实际问题。

参与评论您还未登录，请先登录后发表或查看评论

【深度强化学习】离线强化学习（Offline Reinforcement Learning）和在线强化学习（Online Reinforcement Learning）

qq_40718185的博客

05-27

2194

离线强化学习（Offline Reinforcement Learning）和在线强化学习（Online Reinforcement Learning）是两种强化学习的不同范式，它们的主要区别在于数据的获取方式和使用场景。离线强化学习就像是通过看别人开车的录像学习一样，你使用预先准备好的数据（录像）来学习如何做出最佳决策。离线强化学习更侧重于利用预先收集好的数据进行策略学习，而在线强化学习则更侧重于通过与环境的交互实时地学习和优化策略。

离线强化学习与在线强化学习

最新发布

qq_42568323的博客

12-30

2028

强化学习（RL）在处理复杂任务时常因高维状态空间和稀疏奖励而面临挑战。高层策略：生成抽象的子任务目标。低层策略：完成高层策略指定的子任务。HIRO 是一种改进的分层强化学习算法，提出了一种离线校正机制，以减小高层策略和低层策略之间的分歧，从而提高策略的有效性和鲁棒性。假设环境的状态为sss，动作为aaa，高层策略为πh\pi_hπh，低层策略为πl\pi_lπl。高层策略生成子目标ggg，低层策略根据ggg和当前状态sss执行动作。高层策略高层根据环境状态。

学习笔记--在线强化学习、离线强化学习、连续强化学习的区别（4）

hzlalb的博客

03-20

2836

在连续强化学习中，状态和动作都是连续的，这意味着智能体可以采取无限数量的动作，并且状态空间是连续的，而不是离散的点。- 策略评估和模型选择：在离线学习中，如何有效地评估不同策略和模型的性能，是一个重要的研究问题。- 连续学习和迁移学习：在线学习中，学习者需要不断在不同任务和环境中学习，研究者致力于研究如何将之前学到的知识迁移到新任务中，以实现更高效的学习和决策。- 连续动作选择和优化：在连续动作空间中，智能体对动作的选择是无限的，研究者在连续强化学习中通常关注如何有效地选择连续动作，以达到最优决策策略。

RL Latest Tech离线强化学习：保守Q学习 (CQL) 算法

09-23

RL Latest Tech】离线强化学习：保守Q学习 (CQL) 算法 =================================================================== 包含CQL算法的两个环境实现： 1.CartPole-v1环境 2.halfcheetah-medium-v2环境 =======...

强化学习入门笔记？在线策略算法与离线策略算法

bigludou的博客

04-18

317

我们称采样数据的策略为行为策略（ behavior policy），称用这些数据来更新的策略为目标策略（target policy）。在线策略（ on-policy）算法表示行为策略和目标策略是同一个策略；而离线策略（off-policy）算法表示行为策略和目标策略不是同一个策略。Sarsa 是典型的在线策略算法，而 Q-learning 是典型的离线策略算法。判断二者类别的一个重要手段是看计算时序差分的价值目标的数据是否来自当前的策略，

在线算法和离线算法的概念

baczhang2016的博客

09-28

629

一、在线算法　　在计算机科学中，一个在线算法是指它可以以序列化的方式一个个的处理输入，也就是说在开始时并不需要已经知道所有的输入。相对的，对于一个离线算法，在开始时就需要知道问题的所有输入数据，而且在解决一个问题后就要立即输出结果。例如，选择排序在排序前就需要知道所有待排序元素，然而插入排序就不必。　　因为在线算法并不知道整个的输入，所以它被迫做出的选择最后可能会被证明不是最优的...

21.在线与离线MC强化学习

阿甘的专栏

01-14

1493

在线与离线蒙特卡洛强化学习的基本概念，进一步分类。

在线算法和离线算法

finlay

06-11

1810

在线算法和离线算法的概念 http://www.cnblogs.com/daiyl0320/articles/3344796.html 辨析离线算法与在线算法 http://blog.csdn.net/xiaofengcanyuexj/article/details/10027813 http://www.xuebuyuan.com/1380817.html

离线强化学习(Offline RL)系列3: (算法篇)策略约束 - BRAC算法原理详解与实现(经验篇)

深度强化学习(DeepRL)探索博客

04-06

2443

本文作者通过VP（value penalty）和PR（policy regularization 两种方式来提高算法的效率。并在此技术上讨论了诸如regularization weight、Divergence for regularization以及超参数选择等6方面的内容，论文做了大量的实验（一如既往的Google风格），结论是：（1）加权目标Q值集合和自适应正则化系数是不必要的；（2）价值惩罚（VP）的使用略优于策略正则化（PR），而许多可能的分歧(KL，MMD，Wass Dis)可以达到类似的性能

强化学习方法汇总

Alien's Blog

06-29

1101

Author: LiChong0309 Lable: Reinforcement Learning 、Machine Learning 、Artificial Intelligence [toc] Reinforcement Learning可以按照下面几个标准分类 1. 不理解环境(Model-free) 理解环境和 (Model-based) 2. 基于概率(Poli...

强化学习笔记

lulalalulalulale的博客

03-04

965

记录有关强化学习知识，强化学习 (Reinforcement Learning) 是一个机器学习大家族中的分支, 由于近些年来的技术突破, 和深度学习 (Deep Learning) 的整合, 使得强化学习有了进一步的运用. 比如让计算机学着玩游戏, AlphaGo 挑战世界围棋高手, 都是强化学习在行的事，总结莫凡老师强化学习的笔记通过不断尝试试错，从错误中学习，找到规律，学会了达到目的的方法监督学习, 是已经有了数据和数据对应的正确标签强化学习还要更进一步, 一开始它并没有数据和标签. 通过一次次在环境

轻松解决TSP问题之强化学习（BaseLine）

`or 1 or 不正经の泡泡

10-23

1574

由于这个时间关系（好吧其实是我懒），咱们的话就只写了这个最简单的一个BaseLine版本。那么后面还有Lite,Plus版本，区别的话就是神经网络模型的一个区别，其他的思想都是一样的。那么为什么不写后面的版本呢，一方面是懒，另一方面是，这样搞，我后面怎么水呀。而且一步到位的话，这个阅读量还是挺大的。那么后续的版本什么时候更新呢，这个不急，而且改进的点也很简单。那么本文也是，TSP系列的第三篇文章，也是作为一个拓展文章，那么关于原理部分的话，这里就不细说了，需要一定的基础进行观看。

强化学习&基础1.6 | 决定性策略和随机性策略

ASKCOS博客

04-14

821

在决定性策咯中，从一组环境状态到一组潜在动作的映射（把映射这个数学概念想象成加工厂），输入的是状态而输出的是动作，如果agent想要遵循策略，只需要构建工厂或者指定映射。在随机性策略中，映射接收环境状态s和动作a，返回智能体在状态s下采取动作A的可能性。在上一次的吸尘器的马尔科夫图中可以表示为如果帮到你 ...