Model-free
文章平均质量分 94
收到求救信号
这个作者很懒,什么都没留下…
展开
-
RLFD: Imitation Bootstrapped Reinforcement Learnin
CoRR 2023视觉或向量输入下的RLFD方法,利用模仿学习得到的策略,以自举方式引导在强化学习的策略优化以及价值函数优化。同时,为了更好的表征,IBRL选取VIT-based的网络以及添加Dropout 到policy。原创 2024-09-11 20:34:09 · 728 阅读 · 0 评论 -
Prioritized Experience-based Reinforcement Learning with Human Guidance for Autonomous Driving
人类干预下的reward-shaping,只有在第一次干预下才会进行,若连续干预,则除去第一次均不进行shaping.Human-guided off-policy RL 应用在自动驾驶,其中RL采用的TD3。利用人类专家演示数据,在策略优化过程中通过BC正则的形式,实现策略优化的引导。原创 2024-09-11 10:26:01 · 876 阅读 · 0 评论 -
Offline-Boosted Actor-Critic: Adaptively Blending Optimal Historical Behaviors in Deep Off-Policy RL
ICML 2024。原创 2024-09-04 16:09:25 · 922 阅读 · 0 评论 -
O2O : OLLIE: Imitation Learning from Offline Pretraining to Online Finetuning
ICML 2024papercode解决离线到在线过程中,判别器对齐问题。传统采用离线模仿学习结合基于GAIL的在线模仿学习,容易因为在线阶段初始化的判别器表现具有随机性,与离线获得的策略不一致。因此,本文提出的OLLIE,便是利用混合质量的数据,实现判别器与策略之间的对齐,从何防止O2O的performance drop。GAIL是一种传统在线模仿学习算法,其目标是对抗的学习一个判别器,用于区分专家数据与在线数据minπmaxDEρπ[logD(s,a)]+Eρˉe[log(1−D(s,a原创 2024-06-13 16:31:25 · 975 阅读 · 0 评论 -
Offline :Adversarially Trained Actor Critic for Offline Reinforcement Learning
ICML 2022基于Stackelberg游戏博弈形式,对抗的学习actor与critic。原创 2024-06-12 11:01:13 · 591 阅读 · 0 评论 -
O2O:Offline–Online Actor–Critic
加权TD3_BC。原创 2024-06-06 21:30:28 · 767 阅读 · 0 评论 -
Offline RL : Offline Reinforcement Learning with Uncertainty Critic Regularization Based on Density
IJCNN 2023在PBRL的悲观价值估计的基础上,添加一个基于VAE的ELBO的密度估计权重。同时,将算法进一步推广到在线阶段,实现乐观的价值估计。原创 2024-06-06 17:11:30 · 757 阅读 · 0 评论 -
Offline RL : Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning
ICML 2021利用Q的方差作为权重估计,降低OOD数据的影响程度。原创 2024-06-06 10:32:15 · 906 阅读 · 0 评论 -
O2O:Train Once, Get a Family: State-Adaptive Balances for Offline-to-Online Reinforcement Learning
现有的解决方案通过在离线和在线学习中对策略改进目标施加策略约束来解决这个问题。这种“一刀切”的方式可能无法最优地利用每个收集的样本,因为不同状态的数据质量存在显著差异。本文提出离线到在线RL (FamO2O),使现有算法能够状态自适应的实现策略改进与约束之间的平衡。FamO2O使用一个通用模型来训练具有不同改进/约束强度的策略族,使用一个平衡模型来为每个状态选择合适的策略。经验上,广泛的实验表明,FamO2O在统计上比各种现有方法有显著的改进,在D4RL基准上实现了最先进的性能。平衡系数模型优化如下。原创 2024-06-03 15:47:13 · 666 阅读 · 0 评论 -
O2O :SUF: Stabilized Unconstrained Fine-Tuning for Offline-to-Online Reinforcement Learning
AAAI 2024。原创 2024-05-31 11:12:16 · 440 阅读 · 0 评论 -
O2O:Improving TD3-BC: Relaxed Policy Constraint for Offline Learning and Stable Online Fine-Tuning
但由于从离线到在线设置的突然偏移,这通常会导致初始策略出现performance drop。因此为了提高稳定性和性能的方法,设计了一种过渡到在线设置的替代方法。算法初始化一个新的重放缓冲区,并根据从环境中收集的额外交互训练评论家和策略。过低不能防止过估计问题存在,而较高的值会导致策略泛化能力差,使得策略表现仅限于数据集。通过对TD3-BC 中的BC正则化项系数进行调整,使得算法在实现O2O时有更好的表现。其中当数据为次优时,BC项容易导致策略优化崩溃。其中策略为确定性策略,加上噪声提升探索能力。原创 2024-05-30 10:38:15 · 693 阅读 · 0 评论 -
LfO: Replacing Rewards with Examples: Example-Based Policy Search via Recursive Classification
问题研究在没有奖励的情况下,如何利用成功的演示数据帮助智能体进行强化学习。文章给出的方法是利用这些成功事例来构建奖励函数。原创 2024-05-16 17:21:22 · 325 阅读 · 0 评论 -
Online RL + IL : Blending Imitation and Reinforcement Learning for Robust Policy Improvement
max-aggregation 系列的第三篇文章,同样研究从多个次优策略中选择,从而引导智能体在线高效学习。原创 2024-05-15 23:10:28 · 984 阅读 · 0 评论 -
Online RL + IL : Active Policy Improvement from Multiple Black-box Oracles
ICML 2023紧接上一篇MAMBA,本文在同种问题设定下的在线模仿学习方法。原创 2024-05-15 15:45:11 · 1019 阅读 · 0 评论 -
Online RL + IL :Policy Improvement via Imitation of Multiple Oracles
NIPS 2020如何利用多个次优专家策略来引导智能体在线学习,后续有多个文章研究该设定下的RL。原创 2024-05-15 10:31:21 · 377 阅读 · 0 评论 -
Online RL + IL : TGRL: An Algorithm for Teacher Guided Reinforcement Learning
文章设定一个专家策略,给出两种优化目标。一个是基于专家策略正则的累计回报,一个是原始累计回报。通过比较二者动态的衡量专家策略对智能体在线学习的影响程度,进而实现在线引导过程。文章认为,基于奖励正则所得到的策略应该较优,即执行该策略所获得的累计奖励大于原始目标下的策略。而本文设置一个专家策略,通过监督学习形式对原始奖励正则,构造一种新的优化目标。是只采用任务原始奖励所优化的辅助策略。,使得策略优化更依赖于下一次迭代中的专家。获得更高的奖励,则 λ 的增加会降低教师的重要性。解决该问题分两步,第一步优化策略。原创 2024-05-14 17:44:02 · 652 阅读 · 0 评论 -
Model-free : Keep Various Trajectories: Promoting Exploration of Ensemble Policies
NIPS 2023利用对集成策略的多样化处理实现智能体的高效探索。原创 2024-04-27 11:27:05 · 901 阅读 · 0 评论 -
Stochastic Latent Actor-Critic: Deep Reinforcement Learning with a Latent Variable Model
NIPS 2020。原创 2024-04-04 15:45:05 · 591 阅读 · 0 评论