![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
O2O RL
文章平均质量分 92
收到求救信号
这个作者很懒,什么都没留下…
展开
-
O2O : OLLIE: Imitation Learning from Offline Pretraining to Online Finetuning
ICML 2024papercode解决离线到在线过程中,判别器对齐问题。传统采用离线模仿学习结合基于GAIL的在线模仿学习,容易因为在线阶段初始化的判别器表现具有随机性,与离线获得的策略不一致。因此,本文提出的OLLIE,便是利用混合质量的数据,实现判别器与策略之间的对齐,从何防止O2O的performance drop。GAIL是一种传统在线模仿学习算法,其目标是对抗的学习一个判别器,用于区分专家数据与在线数据minπmaxDEρπ[logD(s,a)]+Eρˉe[log(1−D(s,a原创 2024-06-13 16:31:25 · 918 阅读 · 0 评论 -
O2O:Offline–Online Actor–Critic
加权TD3_BC。原创 2024-06-06 21:30:28 · 745 阅读 · 0 评论 -
O2O : Finetuning Offline World Models in the Real World
启发于IQL,通过只对in-sample的动作尽心TD-backups来估计,缓解过估计问题。文章提出基于不确定性估计的planning实现在线交互过程中的动作选择。算法基于TD-MPC,利用离线数据训练世界模型,然后在线融合基于集成Q的不确定性估计实现Planning。除此外,还维护两个buffer分别存储离线数据于在线数据,通过balance sampling数据训练模型、策略以及价值函数。首先构建集成Q函数模型,计算基于标准差的不确信度,作为惩罚项对奖励进行调整,实现保守的在线planning。原创 2024-06-03 22:14:33 · 907 阅读 · 0 评论 -
O2O:Train Once, Get a Family: State-Adaptive Balances for Offline-to-Online Reinforcement Learning
现有的解决方案通过在离线和在线学习中对策略改进目标施加策略约束来解决这个问题。这种“一刀切”的方式可能无法最优地利用每个收集的样本,因为不同状态的数据质量存在显著差异。本文提出离线到在线RL (FamO2O),使现有算法能够状态自适应的实现策略改进与约束之间的平衡。FamO2O使用一个通用模型来训练具有不同改进/约束强度的策略族,使用一个平衡模型来为每个状态选择合适的策略。经验上,广泛的实验表明,FamO2O在统计上比各种现有方法有显著的改进,在D4RL基准上实现了最先进的性能。平衡系数模型优化如下。原创 2024-06-03 15:47:13 · 646 阅读 · 0 评论 -
O2O :SUF: Stabilized Unconstrained Fine-Tuning for Offline-to-Online Reinforcement Learning
AAAI 2024。原创 2024-05-31 11:12:16 · 401 阅读 · 0 评论 -
O2O : MOTO: Offline to Online Fine-tuning for Model-Based Reinforcement Learning
文章认为,现有的基于模型的离线强化学习方法由于分布偏移、非动态数据和非平稳奖励等问题,在高维领域不适合离线到在线的微调。因此,提出了一种on-policy的基于模型的方法,该方法可以通过基于模型的价值扩展和策略正则化高效地重用先前数据,同时通过控制认知不确定性来防止模型过度利用。因此,在训练的初始阶段,动力学模型可能非常不准确,代理策略可以从更强的数据正则化中受益。,执行时随机采样一个模型去优化世界模型。然后按照一般的off-policy的算法,采用两个Q函数以及target Q函数,对价值函数建模。原创 2024-05-30 15:30:57 · 738 阅读 · 0 评论 -
O2O:Improving TD3-BC: Relaxed Policy Constraint for Offline Learning and Stable Online Fine-Tuning
但由于从离线到在线设置的突然偏移,这通常会导致初始策略出现performance drop。因此为了提高稳定性和性能的方法,设计了一种过渡到在线设置的替代方法。算法初始化一个新的重放缓冲区,并根据从环境中收集的额外交互训练评论家和策略。过低不能防止过估计问题存在,而较高的值会导致策略泛化能力差,使得策略表现仅限于数据集。通过对TD3-BC 中的BC正则化项系数进行调整,使得算法在实现O2O时有更好的表现。其中当数据为次优时,BC项容易导致策略优化崩溃。其中策略为确定性策略,加上噪声提升探索能力。原创 2024-05-30 10:38:15 · 645 阅读 · 0 评论 -
O2O:DCAC: Reducing Unnecessary Conservatism in Offline-to-online Reinforcement Learning
DAI 2023。原创 2024-05-25 15:45:21 · 732 阅读 · 0 评论 -
O2O:Uni-O4
ICLR 2024。原创 2024-05-08 19:34:32 · 719 阅读 · 0 评论 -
O2O: Cal-QL: Calibrated Offline RL Pre-Training for Efficient Online Fine-Tuning
NIPS 2023。原创 2024-05-06 10:49:19 · 840 阅读 · 0 评论 -
O2O:Uncertainty-Driven Pessimistic Q-Ensemble for Offline-to-Online Reinforcement Learning
O2O存在OOD数据导致价值函数的错误估计,进而导致策略出现performance drop。一些方法例如Off2OnRL采用集成悲观的Q估计方法,缓解分布偏移导致的这种Bootstrapping errors。同时该方法还提出一种Balanced ReplayBuffer将离线数据应用于在线过程。本文提出的方法UPQ沿用集成悲观Q估计的同时,采用对Q函数加入基于不确信度量的惩罚。原创 2024-03-27 15:57:46 · 969 阅读 · 0 评论 -
Pretrain RL:Pre-Training Goal-based Models for Sample-Efficient Reinforcement Learning
本文提出的PTGM便是构造为下游任务生成goal的上层策略,指导下游任务的goal-conditioned 低级高效探索利用。此外,在线RL过程中,引入一个预训练的goal prior模型,通过KL散度对high-level的策略进行正则化,保证在线训练的稳定高效。输出的center index,选择对应的goal state,fixed low-level policy将基于goal与环境进行k-steps的交互。模型训练时,类似于训练low-level策略时,选择k-steps后的状态作为goal。原创 2024-03-09 17:45:43 · 747 阅读 · 0 评论 -
O2O:Improving Offline-to-Online Reinforcement Learning with Q-Ensemble
Q-ensemble 大法好。原创 2024-03-09 11:31:20 · 380 阅读 · 0 评论 -
O2O:Sample Efficient Offline-to-Online Reinforcement Learning
文章提出OEMA算法首先使用离线数据训练乐观的探索策略,然后提出基于元学习的优化方法,减少分布偏移并提高O2O的适应过程。然而,由于目标策略通过策略改进不断更新,这种基于行为克隆的惩罚项无法缩小行为策略和目标策略之间的差距,违反了带约束的原问题。接着,为了解决在线微调存在的分布偏移问题,采用元学习的方法。中间的偏导自然是由meta-test小节的损失函数所得到的meta_actor_loss。上述问题在保证策略约束的同时选择高不确信的动作。为了解决该问题,提出在TD3的行为策略上增加一项扰动模型。原创 2024-03-08 22:55:23 · 662 阅读 · 0 评论 -
O2O:Offline Meta-Reinforcement Learning with Online Self-Supervision
ICML 2022。原创 2024-03-07 22:51:58 · 1013 阅读 · 0 评论 -
O2O:Adaptive policy learning for offline-to-online reinforcement learning
AAAI2023。原创 2024-03-07 16:39:26 · 852 阅读 · 0 评论 -
O2O:Offline–Online Actor–Critic
一篇offline to online 的文章,有效解决迁移过程出现的performance drop。所提出的O2AC算法首先在离线阶段添加一项BC惩罚项,用于限制策略靠近专家策略;而在在线微调阶段,通过动态调整BC的权重,缓解performance drop。如果(s,a)是OOD或者质量差数据,那么此时BC项应该尽可能地不要发挥作用。有个疑问,online阶段对策略进行更新时,采样的数据(s,a)是来自replaybuffer。在线微调阶段,对确定性策略优化的损失函数表示如下。原创 2024-03-05 21:17:33 · 790 阅读 · 1 评论 -
O2O:Actor-Critic Alignment for Offline-to-Online Reinforcement Learning
为了避免这些复杂操作,本文并不采用以往AC方法对Q值进行变形,而是对离线策略进行对齐,即使面对离线策略外的动作的Q值依旧能被限制。Q值由于OOD的存在可能存在错误估计,但是策略是值得信赖的。得益于对齐步骤,天然忽略了离线阶段优化的Q值,避免使用离线阶段错误的Q导致在线阶段的崩溃。方法的核心来自于SAC的策略表示,它与Q值softmax操作密切相关,该形式让策略与Q值联系在一起。由上图可知,对齐后的策略能够有更好的性能表现,第二张图也展示策略与Q的对齐效果。离线阶段优化的策略通常表现良好,记作。原创 2024-03-05 17:27:10 · 643 阅读 · 1 评论 -
O2O:Online Decision Transformer(ODT)
ICML 2022。原创 2024-03-04 17:23:35 · 1042 阅读 · 1 评论 -
O2O:A Perspective of Q-value Estimation on Offline-to-Online Reinforcement Learning
AAAI 2024。原创 2024-03-04 09:34:05 · 567 阅读 · 1 评论