Deep Reinforcement Learning amidst Lifelong Non-Stationarity

本文探讨了强化学习在终身非平稳环境中的应用,提出了动态参数马尔科夫决策过程(DP-MDP)模型。作者提出了一种离线策略的RL算法——终身潜在演员批评家(LILAC),该算法能处理环境的持续变化。通过潜在变量模型和变分推理,LILAC能够在非平稳环境中进行推理和适应,从而在一系列模拟环境中展现出优于传统RL算法的性能。
摘要由CSDN通过智能技术生成

如有错误,欢迎指正

本文翻译为机翻,仅作初步了解学习使用,需要用到的时候再回来整理。
原文链接: https://arxiv.org/pdf/2006.10701.pdf.
如有侵权,请私信本人。

摘要

作为人类,我们的目标和环境在我们的一生中都在不断地变化,这取决于我们的经验、行为以及内部和外部的驱动力。相比之下,典型的强化学习问题设置考虑的是跨事件的平稳决策过程。我们是否可以开发强化学习算法,以应对先前更现实的问题设置中的持续变化?虽然原则上在线策略的算法(如策略梯度)可以扩展到非平稳设置,但对于更有效的离线策略算法(在学习时重放过去的经验)则不能如此。在这项工作中,我们形式化了这个问题设置,并借鉴了在线学习和概率推理文献的思想,推导出了一个非策略RL算法,该算法可以对这种终身非平稳性进行推理和处理。我们的方法利用潜在变量模型从当前和过去的经验中学习环境的表示,并使用该表示执行非策略RL。我们进一步介绍了几种具有终身非平稳性的仿真环境,并从经验上发现我们的方法大大优于不考虑环境变化的方法

introduction

在标准强化学习(RL)模型中,假设agent在一个静止的环境中运行,即在固定的动态和奖励下。然而,平稳性的假设在更现实的环境中很少成立,比如在终身学习系统的背景下[54]。也就是说,在其生命周期中,一个agent可能会受到环境动态和随时间变化的奖励。例如,在机器人应用中,这种非平稳性表现在不断变化的地形和天气条件上。在某些情况下,甚至目标都不一定是固定的:考虑一个辅助机器人,帮助一个偏好随时间逐渐改变的人类。这些算法在现有的环境中是不可能很好地执行的,因为这些算法在现有的情况下是不可能很好地执行的。

至关重要的是,在上述每种情况下,环境都是由未知的时变参数指定的。这些潜在参数也不是i.i.d.,例如,如果此时天空晴朗,下一个时刻很可能不会突然开始下雨;换句话说,这些参数有关联但未观察到的动态。在本文中,我们用动态参数马尔可夫决策过程(DP-MDP)来形式化这个问题的设置。DP-MDP对应于一系列平稳的MDP,这些MDP通过一组由自治动力系统控制的潜在参数关联。虽然所有非平稳mdp都是部分可观测Markov决策过程(POMDP)[27]的特例,但在这种情况下,我们可以利用隐藏参数动态中可用的结构,避免在一般情况下求解POMDP。

在线策略RL算法原则上可以处理这种非平稳性[52]。然而,在高度动态的环境中,在环境发生变化之前只允许有限的交互,并且在策略上的方法可能无法在这种低镜头设置下足够快地适应[2]。相反,我们需要一个离线策略的RL算法,它可以利用过去的经验来提高样本效率和对环境动态进行推理。为了适应,agent需要预测MDP参数将如何变化的能力。因此,我们需要MDP的表示以及参数在这个空间中如何演变的模型,这两个都可以从离线策略的经验中学习到。

为此,我们的核心贡献是一个离线策略的RL算法,它可以通过联合学习(1)一个潜在变量模型(它提供了MDP的一个紧凑表示)和(2)一个最大熵策略与此表示相结合来在非平稳性下运行。 我们在一组显示持续非平稳性的模拟环境上验证了我们的方法,我们称之为终身潜在演员批评家(LILAC)。在我们的实验评估中,我们发现我们的方法远远优于不考虑环境动力学的RL算法。

DPMDP

标准RL设置假定与固定MDP发生偶发性交互作用[51]。在现实世界中,假设具有相同mdp的回合式交互作用是有限的,因为它没有捕捉到可能影响决策问题的各种外生因素。避免严格假设马尔科夫观测值的一个常见模型是部分观测MDP(POMDP)公式[27]。虽然POMDP非常通用,但我们在这项工作中重点关注利用非平稳MDP的已知结构来提高性能。特别地,我们考虑一个场景环境,我们称之为动态参数MDP(DP-MDP),其中每个回合中都会出现一个新的MDP(我们也称MDP为任务)。为了反映现实世界非平稳性的规律性,任务通过一组连续的参数进行顺序关联。

形式上,DP-MDP配备有状态空间S、动作空间A和初始状态分布ρS(s1)。根据隐参数MDP(HiP-MDP)[10],一组未观测到的任务参数z∈z定义了每个任务的动力学ps(st+1 | st,at;z)和奖励函数r(st,at;z)。与HiP-MDP相比,DP-MDP中的任务参数z不是i.i.d.采样,而是根据pz(zi+1 | zi)随机移动,初始分布为ρz(z1)。换言之,DP-MDP是一系列由转移函数pz确定参数的任务序列。如果每个事件的任务参数z已知,扩展的状态空间S×z将定义一个完全可观测的MDP,我们可以使用标准RL算法。因此,在我们的方法中,我们的目标是推断隐藏的任务参数并学习它们的转移函数,从而允许我们利用现有的RL算法,通过使用推断出的任务参数来增加观测值。

Preliminaries: RL as Inference

我们首先讨论概率推理和强化学习之间的一种既定联系[55,34],为我们的方法提供一些背景。在较高的层次上,该框架将顺序决策作为一个概率图形模型ÿ

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值