强化学习
文章平均质量分 94
收到求救信号
这个作者很懒,什么都没留下…
展开
-
Offline:Uncertainty-Aware Model-Based Offline Reinforcement Learning for Automated Driving
基于Planning的model-based offline RL算法,采用CARLA环境解决自动驾驶问题原创 2024-06-14 16:12:55 · 943 阅读 · 0 评论 -
O2O : OLLIE: Imitation Learning from Offline Pretraining to Online Finetuning
ICML 2024papercode解决离线到在线过程中,判别器对齐问题。传统采用离线模仿学习结合基于GAIL的在线模仿学习,容易因为在线阶段初始化的判别器表现具有随机性,与离线获得的策略不一致。因此,本文提出的OLLIE,便是利用混合质量的数据,实现判别器与策略之间的对齐,从何防止O2O的performance drop。GAIL是一种传统在线模仿学习算法,其目标是对抗的学习一个判别器,用于区分专家数据与在线数据minπmaxDEρπ[logD(s,a)]+Eρˉe[log(1−D(s,a原创 2024-06-13 16:31:25 · 891 阅读 · 0 评论 -
Offline : How to Leverage Diverse Demonstrations in Offline Imitation Learning
ICML 2024。原创 2024-06-12 21:09:02 · 740 阅读 · 0 评论 -
Offline : CLARE: Conservative Model-Based Reward Learning for Offline Inverse Reinforcement Learning
ICLR 2023。原创 2024-06-12 17:48:38 · 756 阅读 · 0 评论 -
Offline :Adversarially Trained Actor Critic for Offline Reinforcement Learning
ICML 2022基于Stackelberg游戏博弈形式,对抗的学习actor与critic。原创 2024-06-12 11:01:13 · 556 阅读 · 0 评论 -
O2O:Offline–Online Actor–Critic
加权TD3_BC。原创 2024-06-06 21:30:28 · 733 阅读 · 0 评论 -
Offline:Model-Based Offline Reinforcement Learning with Uncertainty Estimation and Policy Constraint
采用集成模型下MC Dropout实现状态动作对的不确定性估计,该估计将作为奖励函数的正则化项。然后基于MMD约束实现策略优化。原创 2024-06-06 18:26:22 · 754 阅读 · 0 评论 -
Offline RL : Offline Reinforcement Learning with Uncertainty Critic Regularization Based on Density
IJCNN 2023在PBRL的悲观价值估计的基础上,添加一个基于VAE的ELBO的密度估计权重。同时,将算法进一步推广到在线阶段,实现乐观的价值估计。原创 2024-06-06 17:11:30 · 719 阅读 · 0 评论 -
Offline RL : Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning
ICML 2021利用Q的方差作为权重估计,降低OOD数据的影响程度。原创 2024-06-06 10:32:15 · 853 阅读 · 0 评论 -
O2O : Finetuning Offline World Models in the Real World
启发于IQL,通过只对in-sample的动作尽心TD-backups来估计,缓解过估计问题。文章提出基于不确定性估计的planning实现在线交互过程中的动作选择。算法基于TD-MPC,利用离线数据训练世界模型,然后在线融合基于集成Q的不确定性估计实现Planning。除此外,还维护两个buffer分别存储离线数据于在线数据,通过balance sampling数据训练模型、策略以及价值函数。首先构建集成Q函数模型,计算基于标准差的不确信度,作为惩罚项对奖励进行调整,实现保守的在线planning。原创 2024-06-03 22:14:33 · 898 阅读 · 0 评论 -
O2O:Train Once, Get a Family: State-Adaptive Balances for Offline-to-Online Reinforcement Learning
现有的解决方案通过在离线和在线学习中对策略改进目标施加策略约束来解决这个问题。这种“一刀切”的方式可能无法最优地利用每个收集的样本,因为不同状态的数据质量存在显著差异。本文提出离线到在线RL (FamO2O),使现有算法能够状态自适应的实现策略改进与约束之间的平衡。FamO2O使用一个通用模型来训练具有不同改进/约束强度的策略族,使用一个平衡模型来为每个状态选择合适的策略。经验上,广泛的实验表明,FamO2O在统计上比各种现有方法有显著的改进,在D4RL基准上实现了最先进的性能。平衡系数模型优化如下。原创 2024-06-03 15:47:13 · 610 阅读 · 0 评论 -
Offline RL:RAMBO-RL: Robust Adversarial Model-Based Offline Reinforcement Learning
NIPS 2022。原创 2024-05-31 23:00:01 · 600 阅读 · 0 评论 -
O2O :SUF: Stabilized Unconstrained Fine-Tuning for Offline-to-Online Reinforcement Learning
AAAI 2024。原创 2024-05-31 11:12:16 · 374 阅读 · 0 评论 -
Offline RL :Model-Based Offline Reinforcement Learning with Pessimism-Modulated Dynamics Belief
因此,本文提出一种新方法,通过维持一个动态的信念分布,并通过对信念进行偏向悲观的采样来评估/优化策略。以往基于模型的方法,通过对模型预测的不确定性作为reward的惩罚项,一定程度导致保守行为估计。解决每个子问题都会对策略进行显著的更新,但在收敛之前,可能需要不断构造子问题,然后准确地解决每个子问会导致不必要的计算。中的元素则是相互独立且同分布,天然的将不确定性引入进每一步的预测中。这里的想法是将优化的策略约束在参考策略的邻居中,以便在这样一个小的策略区域内充分评估内部问题。在每一轮中,主玩家收到奖励者。原创 2024-05-30 21:11:08 · 619 阅读 · 0 评论 -
O2O : MOTO: Offline to Online Fine-tuning for Model-Based Reinforcement Learning
文章认为,现有的基于模型的离线强化学习方法由于分布偏移、非动态数据和非平稳奖励等问题,在高维领域不适合离线到在线的微调。因此,提出了一种on-policy的基于模型的方法,该方法可以通过基于模型的价值扩展和策略正则化高效地重用先前数据,同时通过控制认知不确定性来防止模型过度利用。因此,在训练的初始阶段,动力学模型可能非常不准确,代理策略可以从更强的数据正则化中受益。,执行时随机采样一个模型去优化世界模型。然后按照一般的off-policy的算法,采用两个Q函数以及target Q函数,对价值函数建模。原创 2024-05-30 15:30:57 · 717 阅读 · 0 评论 -
O2O:Improving TD3-BC: Relaxed Policy Constraint for Offline Learning and Stable Online Fine-Tuning
但由于从离线到在线设置的突然偏移,这通常会导致初始策略出现performance drop。因此为了提高稳定性和性能的方法,设计了一种过渡到在线设置的替代方法。算法初始化一个新的重放缓冲区,并根据从环境中收集的额外交互训练评论家和策略。过低不能防止过估计问题存在,而较高的值会导致策略泛化能力差,使得策略表现仅限于数据集。通过对TD3-BC 中的BC正则化项系数进行调整,使得算法在实现O2O时有更好的表现。其中当数据为次优时,BC项容易导致策略优化崩溃。其中策略为确定性策略,加上噪声提升探索能力。原创 2024-05-30 10:38:15 · 629 阅读 · 0 评论 -
O2O:DCAC: Reducing Unnecessary Conservatism in Offline-to-online Reinforcement Learning
DAI 2023。原创 2024-05-25 15:45:21 · 720 阅读 · 0 评论 -
Offline RL : Context-Former: Stitching via Latent Conditioned Sequence Modeling
上述两个定义分别给出基于隐变量的条件序列模型建模方式,以及使用专家序列,通过度量经过embedding后的变量距离,使得待优化策略应满足靠近专家策略,远离次优轨迹策略。对于定义二有如下形式化的目标来优化上下文隐变量表征Jz∗minz∗IϕEτ∗∼π∗τ∥z∗−Iϕτ∗∥−Eτ∼π∥z∗−Iϕτ∥Jz∗z∗IϕminEτ∗∼π∗τ∥z∗−Iϕτ∗∥−Eτ∼。原创 2024-05-25 10:05:49 · 955 阅读 · 0 评论 -
Predictable MDP Abstraction for Unsupervised Model-Based RL
ICML 2023。原创 2024-05-24 22:50:13 · 798 阅读 · 0 评论 -
Offline RL : Beyond Reward: Offline Preference-guided Policy Optimization
ICML 2023preference based offline RL,基于HIM,不依靠额外学习奖励函数。原创 2024-05-24 20:13:53 · 775 阅读 · 0 评论 -
Offline RL : StARformer: Transformer With State-Action-Reward Representations for Robot Learning
额外添加一个自注意力捕捉关键信息,并作为goal加入到Transformer序列模型中学习策略。原创 2024-05-24 16:17:42 · 897 阅读 · 0 评论 -
Offline RL : Generalized Decision Transformer for Offline Hindsight Information Matching
基于序列模型架构的离线强化学习引入累计奖励丰富输入信号(HER 以及DT中的“returns-to-go:),从而帮助序列模型的样本效率提升。本文证明了所有这些方法都是事后信息匹配 (hindsight information matching,HIM)—通过训练策略,输出与未来状态信息的在一些统计数据相匹配的其他轨迹。启发于Distribution RL,采用直方图的作为特征空间表达,然后加入到序列模型的输入,并且随着时间步采用类似bellman的递归更新方式。,以及该集合的信息统计量为。原创 2024-05-24 11:10:17 · 647 阅读 · 0 评论 -
Offline RL :Bootstrapped Transformer for Offline Reinforcement Learning
NIPS 2022可看作是一种数据增强。原创 2024-05-22 20:10:22 · 579 阅读 · 0 评论 -
Offline RL :Critic-Guided Decision Transformer for Offline Reinforcement Learning
AAAI 2023利用价值函数解决序列模型拼接能力的离线算法。原创 2024-05-21 22:23:36 · 510 阅读 · 0 评论 -
Offline RL : Reinformer: Max-Return Sequence Modeling for offline RL
ICML 2024。原创 2024-05-20 22:43:00 · 570 阅读 · 0 评论 -
Offline RL :Goal-Conditioned Predictive Coding for Offline Reinforcement Learning
NIPS 2023。原创 2024-05-20 19:39:47 · 393 阅读 · 0 评论 -
Offline RL : QDT: Leveraging Dynamic Programming for Conditional Sequence Modelling in Offline RL
ICML 2023paperCQL + DTsequential model在离线强化学习中广泛应用,尤其是基于transformer 架构的方法。本文指出这种方法虽然对轨迹数据强大的特征表达能力,但是缺乏对轨迹的拼接能力。而传统基于动态规划的RL方法(Q学习)不存在该问题,但是存在价值函数函数逼近误差造成的学习过程不稳定。因此,本文提出将两种类型的算法结合 提出QDT: DT + CQL.利用动态规划结果重新标记训练数据中的回报,然后用重新标记的数据训练DT,在离线数据上性能实现提升。QDT使用CQ原创 2024-05-17 15:56:15 · 909 阅读 · 0 评论 -
LfO: Replacing Rewards with Examples: Example-Based Policy Search via Recursive Classification
问题研究在没有奖励的情况下,如何利用成功的演示数据帮助智能体进行强化学习。文章给出的方法是利用这些成功事例来构建奖励函数。原创 2024-05-16 17:21:22 · 289 阅读 · 0 评论 -
Online RL + IL : Blending Imitation and Reinforcement Learning for Robust Policy Improvement
max-aggregation 系列的第三篇文章,同样研究从多个次优策略中选择,从而引导智能体在线高效学习。原创 2024-05-15 23:10:28 · 940 阅读 · 0 评论 -
Online RL + IL : Active Policy Improvement from Multiple Black-box Oracles
ICML 2023紧接上一篇MAMBA,本文在同种问题设定下的在线模仿学习方法。原创 2024-05-15 15:45:11 · 990 阅读 · 0 评论 -
Online RL + IL :Policy Improvement via Imitation of Multiple Oracles
NIPS 2020如何利用多个次优专家策略来引导智能体在线学习,后续有多个文章研究该设定下的RL。原创 2024-05-15 10:31:21 · 338 阅读 · 0 评论 -
Online RL + IL : TGRL: An Algorithm for Teacher Guided Reinforcement Learning
文章设定一个专家策略,给出两种优化目标。一个是基于专家策略正则的累计回报,一个是原始累计回报。通过比较二者动态的衡量专家策略对智能体在线学习的影响程度,进而实现在线引导过程。文章认为,基于奖励正则所得到的策略应该较优,即执行该策略所获得的累计奖励大于原始目标下的策略。而本文设置一个专家策略,通过监督学习形式对原始奖励正则,构造一种新的优化目标。是只采用任务原始奖励所优化的辅助策略。,使得策略优化更依赖于下一次迭代中的专家。获得更高的奖励,则 λ 的增加会降低教师的重要性。解决该问题分两步,第一步优化策略。原创 2024-05-14 17:44:02 · 614 阅读 · 0 评论 -
Offline: Overcoming Model Bias for Robust Offline Deep Reinforcement Learning
EAAI 2023。原创 2024-05-11 22:59:33 · 605 阅读 · 0 评论 -
Offline: Look Beneath the Surface: Exploiting Fundamental Symmetry for Sample-Efficient Offline RL
具体来说,通过结合时间反演对称性(T-对称性),在隐空间中对前向和反向的动力学过程的一致性建立动力学模型(TDM)。第一项是限制隐变量偏差,第二项则是使得样本符合T-对称,这使得即使面对OOD的数据,如果与数据集中的一些潜在动作具有相似的隐空间特征表示,并且与满足TDM 中的 T 对称属性一致,那么可以期望这些操作之间存在一定程度的等价性。为了避免下一时刻状态产生不可逆的动作或者特殊的动力学过程,设置反向模型中的动作为。(复合映射),即任意状态的前向时间演化的反转应该等于反向状态的后向时间演化。原创 2024-05-11 15:26:48 · 903 阅读 · 0 评论 -
O2O:Uni-O4
ICLR 2024。原创 2024-05-08 19:34:32 · 707 阅读 · 0 评论 -
Offline:IQL
部分离线强化学习的对价值函数采用的是最小化均方bellman误差。而其中误差源自单步的TD误差。TD误差中对target Q的计算需要选取一个max的动作,这就容易导致采取了OOD的数据。因此,IQL取消max,,通过一个期望回归算子实现利用数据集中数据去逼近最优的Q。中采样的下一个动作具有一定的随机性,即使由较大的target Q也无法代表这是一个最优动作。采用均值就有效增加鲁棒性。价值函数完成优化后便是优化策略。这里采用的是AWR方法。然而上式存在一个问题。替换掉MSE来优化Q。原创 2024-05-07 20:22:13 · 612 阅读 · 0 评论 -
O2O: Cal-QL: Calibrated Offline RL Pre-Training for Efficient Online Fine-Tuning
NIPS 2023。原创 2024-05-06 10:49:19 · 811 阅读 · 0 评论 -
Transformer in Offline:Waypoint Transformer: Reinforcement Learning via Supervised Learning with Int
Goal-conditioned RL 结合 Transformer 应用在Offline RL的设定下。原创 2024-04-27 14:32:04 · 627 阅读 · 0 评论 -
Model-free : Keep Various Trajectories: Promoting Exploration of Ensemble Policies
NIPS 2023利用对集成策略的多样化处理实现智能体的高效探索。原创 2024-04-27 11:27:05 · 876 阅读 · 0 评论 -
ReplayBuffer: Model-augmented Prioritized Experience Replay
一篇关于RelayBuffer中sample ratio的文章,可以结合到model-free以及model-based的方法中提升算法的sample efficiency。原创 2024-04-18 17:25:31 · 1012 阅读 · 0 评论