强化学习-策略优化
文章平均质量分 90
强化学习-策略优化
nopSled
一周一更
展开
-
IN-CONTEXT REINFORCEMENT LEARNING WITH ALGORITHM DISTILLATION翻译
Transformers已成为用于序列建模的强大神经网络结构。预训练的transformers的一个令人惊讶的属性是它们通过提示或上下文学习来适应下游任务的能力。在大型离线数据集上进行预训练之后,已证明大型transformers可以推广到文本补全,语言理解和图像生成等下游任务中。最近的工作表明,transformers还可以通过将离线强化学习(RL)作为序列预测问题从离线数据中学习策略。翻译 2022-11-07 17:57:29 · 809 阅读 · 0 评论 -
Reinforcement Learning When All Actions Are Not Always Available翻译
马尔可夫决策过程(MDP)用于建模许多现实世界中的序列决策问题,但是无法有效捕获决策动作集合随时间而变化的情况。最近,随机动作集马尔可夫决策过程(SAS-MDP)被提出,其可以更好地捕获随机动作集的概念。在本文中,我们认为现有的SAS-MDP RL算法可能会遇到潜在分歧问题,并为SAS-MDP提出了一个新的策略梯度算法,该算法对各种归纳技术进行了统一,并为这些技术的收敛提供了条件。我们在由真实案例启发的任务上(动作集是随机的)进行实验,实验证明了我们方法的实用性。在许多现实世界的序列决策问题中,可用的决策集翻译 2022-07-27 14:04:43 · 159 阅读 · 0 评论 -
SAMPLE EFFICIENT ACTOR-CRITIC WITH EXPERIENCE REPLAY翻译
摘要本文介绍了一种具有经验回放能力的actor-critic深度强化学习agent,该经验回放具有稳定的,高效的采样效率,并且在具有挑战性的环境中表现出色,包括离散的Atari游戏和若干的连续控制问题。为此,本文介绍了一些包括采用偏差校正的截断重要性抽样,随机对抗网络体系结构以及一种新的信赖域策略优化方法。1.介绍现实的模拟环境可训练agent学习大量的认知技能,这是AI最新突破的核心。通过...翻译 2020-04-03 10:03:09 · 1114 阅读 · 1 评论 -
Proximal Policy Optimization Algorithms翻译
摘要我们提出了一类新的用于强化学习的策略梯度方法,该方法可以在与环境交互进行数据采样和使用随机梯度上升优化一个“替代”目标函数之间进行交替。标准策略梯度方法对每个数据样本执行一个梯度更新,而我们提出了一种新的目标函数,该函数可实现多次的小批量更新。我们称为近端策略优化(PPO)的新方法具有信赖域策略优化(TRPO)的一些优点,但它们实施起来更简单,更通用,并且具有更好的样本复杂性(经验上)。我们...翻译 2020-03-26 10:08:30 · 1202 阅读 · 0 评论 -
2017.v5.Trust Region Policy Optimization翻译
摘要在本文中,我们描述了一种在保证单调提升的情况下去优化控制策略的方法。通过对理论上合理的方案进行一些近似,我们开发了一种实用的算法,称为信赖域策略优化(TRPO)。该算法对于优化大型非线性策略(例如神经网络)有效。我们的实验证明了它在各种任务上的强大性能:学习模拟的机器人游泳,跳跃和步行步态;并使用屏幕图像作为输入来玩Atari游戏。尽管TRPO的近似值偏离了理论,但TRPO倾向于单调提升,而...翻译 2020-03-20 11:07:04 · 489 阅读 · 0 评论 -
HIGH-DIMENSIONAL CONTINUOUS CONTROL USING GENERALIZED ADVANTAGE ESTIMATION翻译
摘要策略梯度方法是强化学习中的一种有吸引力的方法,因为它们可以直接优化累积奖赏,并且可以直接与非线性函数近似器(例如神经网络)一起使用。两个主要挑战是通常需要大量样本,并且尽管输入数据不稳定,但难以获得稳定的改进。 (1)我们通过使用价值函数以某种偏差为代价,通过大幅降低策略梯度估计的方差,并采用类似于TD(λ)TD(λ)TD(λ)的优势函数的指数加权估计器,来应对第一个挑战。 (2)我...翻译 2020-03-13 10:32:51 · 1016 阅读 · 0 评论