Model-based
文章平均质量分 95
收到求救信号
这个作者很懒,什么都没留下…
展开
-
Representation RL : DreamerPro: Reconstruction-Free Model-Based Reinforcement Learning with Prototyp
ICML 2022。原创 2024-06-20 22:02:30 · 1030 阅读 · 0 评论 -
Representation RL:HarmonyDream: Task Harmonization Inside World Models
ICML2024。原创 2024-06-20 13:33:48 · 968 阅读 · 0 评论 -
Offline:Uncertainty-Aware Model-Based Offline Reinforcement Learning for Automated Driving
基于Planning的model-based offline RL算法,采用CARLA环境解决自动驾驶问题原创 2024-06-14 16:12:55 · 1004 阅读 · 0 评论 -
Offline : CLARE: Conservative Model-Based Reward Learning for Offline Inverse Reinforcement Learning
ICLR 2023。原创 2024-06-12 17:48:38 · 831 阅读 · 0 评论 -
Offline:Model-Based Offline Reinforcement Learning with Uncertainty Estimation and Policy Constraint
采用集成模型下MC Dropout实现状态动作对的不确定性估计,该估计将作为奖励函数的正则化项。然后基于MMD约束实现策略优化。原创 2024-06-06 18:26:22 · 819 阅读 · 0 评论 -
O2O : Finetuning Offline World Models in the Real World
启发于IQL,通过只对in-sample的动作尽心TD-backups来估计,缓解过估计问题。文章提出基于不确定性估计的planning实现在线交互过程中的动作选择。算法基于TD-MPC,利用离线数据训练世界模型,然后在线融合基于集成Q的不确定性估计实现Planning。除此外,还维护两个buffer分别存储离线数据于在线数据,通过balance sampling数据训练模型、策略以及价值函数。首先构建集成Q函数模型,计算基于标准差的不确信度,作为惩罚项对奖励进行调整,实现保守的在线planning。原创 2024-06-03 22:14:33 · 932 阅读 · 0 评论 -
Offline RL:RAMBO-RL: Robust Adversarial Model-Based Offline Reinforcement Learning
NIPS 2022。原创 2024-05-31 23:00:01 · 653 阅读 · 0 评论 -
Offline RL :Model-Based Offline Reinforcement Learning with Pessimism-Modulated Dynamics Belief
因此,本文提出一种新方法,通过维持一个动态的信念分布,并通过对信念进行偏向悲观的采样来评估/优化策略。以往基于模型的方法,通过对模型预测的不确定性作为reward的惩罚项,一定程度导致保守行为估计。解决每个子问题都会对策略进行显著的更新,但在收敛之前,可能需要不断构造子问题,然后准确地解决每个子问会导致不必要的计算。中的元素则是相互独立且同分布,天然的将不确定性引入进每一步的预测中。这里的想法是将优化的策略约束在参考策略的邻居中,以便在这样一个小的策略区域内充分评估内部问题。在每一轮中,主玩家收到奖励者。原创 2024-05-30 21:11:08 · 689 阅读 · 0 评论 -
O2O : MOTO: Offline to Online Fine-tuning for Model-Based Reinforcement Learning
文章认为,现有的基于模型的离线强化学习方法由于分布偏移、非动态数据和非平稳奖励等问题,在高维领域不适合离线到在线的微调。因此,提出了一种on-policy的基于模型的方法,该方法可以通过基于模型的价值扩展和策略正则化高效地重用先前数据,同时通过控制认知不确定性来防止模型过度利用。因此,在训练的初始阶段,动力学模型可能非常不准确,代理策略可以从更强的数据正则化中受益。,执行时随机采样一个模型去优化世界模型。然后按照一般的off-policy的算法,采用两个Q函数以及target Q函数,对价值函数建模。原创 2024-05-30 15:30:57 · 765 阅读 · 0 评论 -
Predictable MDP Abstraction for Unsupervised Model-Based RL
ICML 2023。原创 2024-05-24 22:50:13 · 835 阅读 · 0 评论 -
Model-Based: Live in the Moment: Learning Dynamics Model Adapted to Evolving Policy
以往的model-based随机抽样历史策略产生的数据进行model训练,本文在实验中发现随着训练地进行,智能体目标策略不断优化,被访问的状态动作分布以及模型误差也在变化。尤其当前策略的模型预测误差高于历史策略,那基于当前策略进行rollout时,就容易产生异常数据。这个误差上界的第一项表示基于当前策略下的环境交互数据的模型误差,第二项则代表混合策略进行rollout时的状态动作分布偏移以及策略偏移,第三项则是考虑基于model产生的数据对当前策略以及混策略偏移。本文证明当前策略的模型误差是被Bound,原创 2024-04-07 14:26:00 · 859 阅读 · 0 评论 -
Model-based:COPlanner: Plan to Roll Out Conservatively but to Explore Optimistically for Model-Based
ICLR 2024。原创 2024-04-04 22:24:43 · 608 阅读 · 0 评论