离线强化学习
文章平均质量分 94
收到求救信号
这个作者很懒,什么都没留下…
展开
-
Offline:Uncertainty-Aware Model-Based Offline Reinforcement Learning for Automated Driving
基于Planning的model-based offline RL算法,采用CARLA环境解决自动驾驶问题原创 2024-06-14 16:12:55 · 943 阅读 · 0 评论 -
Offline : How to Leverage Diverse Demonstrations in Offline Imitation Learning
ICML 2024。原创 2024-06-12 21:09:02 · 739 阅读 · 0 评论 -
Offline : CLARE: Conservative Model-Based Reward Learning for Offline Inverse Reinforcement Learning
ICLR 2023。原创 2024-06-12 17:48:38 · 756 阅读 · 0 评论 -
Offline :Adversarially Trained Actor Critic for Offline Reinforcement Learning
ICML 2022基于Stackelberg游戏博弈形式,对抗的学习actor与critic。原创 2024-06-12 11:01:13 · 556 阅读 · 0 评论 -
Offline:Model-Based Offline Reinforcement Learning with Uncertainty Estimation and Policy Constraint
采用集成模型下MC Dropout实现状态动作对的不确定性估计,该估计将作为奖励函数的正则化项。然后基于MMD约束实现策略优化。原创 2024-06-06 18:26:22 · 754 阅读 · 0 评论 -
Offline RL : Offline Reinforcement Learning with Uncertainty Critic Regularization Based on Density
IJCNN 2023在PBRL的悲观价值估计的基础上,添加一个基于VAE的ELBO的密度估计权重。同时,将算法进一步推广到在线阶段,实现乐观的价值估计。原创 2024-06-06 17:11:30 · 719 阅读 · 0 评论 -
Offline RL : Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning
ICML 2021利用Q的方差作为权重估计,降低OOD数据的影响程度。原创 2024-06-06 10:32:15 · 853 阅读 · 0 评论 -
Offline RL:RAMBO-RL: Robust Adversarial Model-Based Offline Reinforcement Learning
NIPS 2022。原创 2024-05-31 23:00:01 · 600 阅读 · 0 评论 -
Offline RL :Model-Based Offline Reinforcement Learning with Pessimism-Modulated Dynamics Belief
因此,本文提出一种新方法,通过维持一个动态的信念分布,并通过对信念进行偏向悲观的采样来评估/优化策略。以往基于模型的方法,通过对模型预测的不确定性作为reward的惩罚项,一定程度导致保守行为估计。解决每个子问题都会对策略进行显著的更新,但在收敛之前,可能需要不断构造子问题,然后准确地解决每个子问会导致不必要的计算。中的元素则是相互独立且同分布,天然的将不确定性引入进每一步的预测中。这里的想法是将优化的策略约束在参考策略的邻居中,以便在这样一个小的策略区域内充分评估内部问题。在每一轮中,主玩家收到奖励者。原创 2024-05-30 21:11:08 · 619 阅读 · 0 评论 -
Offline RL : Context-Former: Stitching via Latent Conditioned Sequence Modeling
上述两个定义分别给出基于隐变量的条件序列模型建模方式,以及使用专家序列,通过度量经过embedding后的变量距离,使得待优化策略应满足靠近专家策略,远离次优轨迹策略。对于定义二有如下形式化的目标来优化上下文隐变量表征Jz∗minz∗IϕEτ∗∼π∗τ∥z∗−Iϕτ∗∥−Eτ∼π∥z∗−Iϕτ∥Jz∗z∗IϕminEτ∗∼π∗τ∥z∗−Iϕτ∗∥−Eτ∼。原创 2024-05-25 10:05:49 · 955 阅读 · 0 评论 -
Offline RL : Beyond Reward: Offline Preference-guided Policy Optimization
ICML 2023preference based offline RL,基于HIM,不依靠额外学习奖励函数。原创 2024-05-24 20:13:53 · 775 阅读 · 0 评论 -
Offline RL : StARformer: Transformer With State-Action-Reward Representations for Robot Learning
额外添加一个自注意力捕捉关键信息,并作为goal加入到Transformer序列模型中学习策略。原创 2024-05-24 16:17:42 · 897 阅读 · 0 评论 -
Offline RL : Generalized Decision Transformer for Offline Hindsight Information Matching
基于序列模型架构的离线强化学习引入累计奖励丰富输入信号(HER 以及DT中的“returns-to-go:),从而帮助序列模型的样本效率提升。本文证明了所有这些方法都是事后信息匹配 (hindsight information matching,HIM)—通过训练策略,输出与未来状态信息的在一些统计数据相匹配的其他轨迹。启发于Distribution RL,采用直方图的作为特征空间表达,然后加入到序列模型的输入,并且随着时间步采用类似bellman的递归更新方式。,以及该集合的信息统计量为。原创 2024-05-24 11:10:17 · 647 阅读 · 0 评论 -
Offline RL :Bootstrapped Transformer for Offline Reinforcement Learning
NIPS 2022可看作是一种数据增强。原创 2024-05-22 20:10:22 · 579 阅读 · 0 评论 -
Offline RL :Critic-Guided Decision Transformer for Offline Reinforcement Learning
AAAI 2023利用价值函数解决序列模型拼接能力的离线算法。原创 2024-05-21 22:23:36 · 510 阅读 · 0 评论 -
Offline RL : Reinformer: Max-Return Sequence Modeling for offline RL
ICML 2024。原创 2024-05-20 22:43:00 · 570 阅读 · 0 评论 -
Offline RL :Goal-Conditioned Predictive Coding for Offline Reinforcement Learning
NIPS 2023。原创 2024-05-20 19:39:47 · 393 阅读 · 0 评论 -
Offline RL : QDT: Leveraging Dynamic Programming for Conditional Sequence Modelling in Offline RL
ICML 2023paperCQL + DTsequential model在离线强化学习中广泛应用,尤其是基于transformer 架构的方法。本文指出这种方法虽然对轨迹数据强大的特征表达能力,但是缺乏对轨迹的拼接能力。而传统基于动态规划的RL方法(Q学习)不存在该问题,但是存在价值函数函数逼近误差造成的学习过程不稳定。因此,本文提出将两种类型的算法结合 提出QDT: DT + CQL.利用动态规划结果重新标记训练数据中的回报,然后用重新标记的数据训练DT,在离线数据上性能实现提升。QDT使用CQ原创 2024-05-17 15:56:15 · 909 阅读 · 0 评论 -
Offline: Overcoming Model Bias for Robust Offline Deep Reinforcement Learning
EAAI 2023。原创 2024-05-11 22:59:33 · 605 阅读 · 0 评论 -
Offline: Look Beneath the Surface: Exploiting Fundamental Symmetry for Sample-Efficient Offline RL
具体来说,通过结合时间反演对称性(T-对称性),在隐空间中对前向和反向的动力学过程的一致性建立动力学模型(TDM)。第一项是限制隐变量偏差,第二项则是使得样本符合T-对称,这使得即使面对OOD的数据,如果与数据集中的一些潜在动作具有相似的隐空间特征表示,并且与满足TDM 中的 T 对称属性一致,那么可以期望这些操作之间存在一定程度的等价性。为了避免下一时刻状态产生不可逆的动作或者特殊的动力学过程,设置反向模型中的动作为。(复合映射),即任意状态的前向时间演化的反转应该等于反向状态的后向时间演化。原创 2024-05-11 15:26:48 · 903 阅读 · 0 评论 -
O2O:Uni-O4
ICLR 2024。原创 2024-05-08 19:34:32 · 707 阅读 · 0 评论 -
Offline:IQL
部分离线强化学习的对价值函数采用的是最小化均方bellman误差。而其中误差源自单步的TD误差。TD误差中对target Q的计算需要选取一个max的动作,这就容易导致采取了OOD的数据。因此,IQL取消max,,通过一个期望回归算子实现利用数据集中数据去逼近最优的Q。中采样的下一个动作具有一定的随机性,即使由较大的target Q也无法代表这是一个最优动作。采用均值就有效增加鲁棒性。价值函数完成优化后便是优化策略。这里采用的是AWR方法。然而上式存在一个问题。替换掉MSE来优化Q。原创 2024-05-07 20:22:13 · 612 阅读 · 0 评论 -
Transformer in Offline:Waypoint Transformer: Reinforcement Learning via Supervised Learning with Int
Goal-conditioned RL 结合 Transformer 应用在Offline RL的设定下。原创 2024-04-27 14:32:04 · 627 阅读 · 0 评论 -
Offline RL : Efficient Planning in a Compact Latent Action Space
对于高维复杂环境,通过encoder到低维度隐空间进行推理学习好的特征表示,在decoder生成是一个好的框架。对于下游任务,就可以直接采用学习好的特征以及decoder实现zero-shot。这是一个不错的思路。后续ICLR2024有个工作使用在隐空间进行Diffusion:《Efficient Planning with Latent Diffusion》原创 2024-04-11 21:14:05 · 872 阅读 · 0 评论 -
Offline RL: ResAct: Reinforcing Long-term Engagement in Sequential Recommendation ....
ICLR 2023。原创 2024-04-07 22:51:38 · 749 阅读 · 0 评论 -
Offline RL:OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement Learning
ICLR 2021。原创 2024-04-03 15:38:52 · 945 阅读 · 0 评论 -
Offline RL:Pessimistic Bootstrapping for Uncertainty-Driven Offline Reinforcement Learning
ICLR 2022。原创 2024-03-28 16:46:16 · 852 阅读 · 0 评论 -
模仿学习:Learning to Discern: Imitating Heterogeneous Human Demonstrations with Preference and Represent
CoRL 2023。原创 2024-03-26 09:47:36 · 544 阅读 · 0 评论 -
Offlian RL: Weighted Policy Constraints for Offline Reinforcement Learning
AAAI 2023。原创 2024-03-25 17:21:25 · 1023 阅读 · 0 评论 -
Offline RL : Semi-Supervised Offline Reinforcement Learning with Action-Free Trajectories
ICML 2023。原创 2024-03-22 17:56:44 · 708 阅读 · 0 评论 -
Offline RL : SEABO: A Simple Search-Based Method for Offline Imitation Learning
NIPS 2024。原创 2024-03-21 10:52:15 · 232 阅读 · 0 评论 -
Offline RL: A Policy-Guided Imitation Approach for Offline Reinforcement Learning
NIPS 2022。原创 2024-03-20 17:40:51 · 768 阅读 · 0 评论 -
Offline RL: BAIL: Best-Action Imitation Learning for Batch Deep Reinforcement Learning
NIPS 2020。原创 2024-03-20 13:57:33 · 706 阅读 · 0 评论 -
Offline RL :When Demonstrations meet Generative World Models: A Maximum Likelihood Framework...
由于分布偏移问题,从固定数据集恢复的环境模型不准确,容易导致奖励函数估计存在误差。由图1可以看出方法分为两阶段:利用离线数据估计世界模型,并采用不确定估计技术不确定性度量,对高模型不确定性和低覆盖率的(s,a)进行惩罚,避免在不熟悉区域探索。low-level问题下得到的策略是保守的,因为包含不确信惩罚以及正则化的U。在实践中,可以采用soft Q-learning和SAC,以获得精确逼近的软q函数,从而实现策略迭代的稳定更新。上层问题优化奖励函数,下层问题优化策略函数。,该步骤便是优化得到改进的奖励。原创 2024-03-04 20:52:58 · 774 阅读 · 1 评论 -
Offline RL: Uncertainty-Based Offline Reinforcement Learning with Diversified Q-Ensemble
本文首先提出SAC-N算法,发现简单的增加Q函数便可以提高算法sample- efficiency,但是过多的Q导致计算效率较低,且Q网络出现冗余,因此进一步提出了EDAC。而offline RL中数据集是固定的,只需要考虑离线数据,为了防止乐观估计导致Q过高,因此采用Q值估计的置信下界(lower-confidence bound,LCB),例如在Q-ensemble均值上减标准差,这样可以避免高风险的状态动作对。因此,EDAC希望减少N。而(b)中,由于Q梯度的多样性,避免该情况的出现。原创 2024-02-27 22:10:33 · 1033 阅读 · 0 评论 -
Offline RL:Pessimistic Bootstrapping for Uncertainty-Driven Offline Reinforcement Learning
ICLR 2022。原创 2024-02-27 16:23:33 · 768 阅读 · 0 评论