Deep Reinforcement Learning amidst Lifelong Non-Stationarity-CSDN博客

本文为博主原创文章，转载请声明作者rockray21。如有问题，欢迎指正。

本文链接：https://blog.csdn.net/rockray21/article/details/108659102

本文探讨了强化学习在终身非平稳环境中的应用，提出了动态参数马尔科夫决策过程（DP-MDP）模型。作者提出了一种离线策略的RL算法——终身潜在演员批评家（LILAC），该算法能处理环境的持续变化。通过潜在变量模型和变分推理，LILAC能够在非平稳环境中进行推理和适应，从而在一系列模拟环境中展现出优于传统RL算法的性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Deep Reinforcement Learning amidst Lifelong Non-Stationarity）

如有错误，欢迎指正

本文翻译为机翻，仅作初步了解学习使用，需要用到的时候再回来整理。
原文链接: https://arxiv.org/pdf/2006.10701.pdf.
如有侵权，请私信本人。

摘要

作为人类，我们的目标和环境在我们的一生中都在不断地变化，这取决于我们的经验、行为以及内部和外部的驱动力。相比之下，典型的强化学习问题设置考虑的是跨事件的平稳决策过程。我们是否可以开发强化学习算法，以应对先前更现实的问题设置中的持续变化？虽然原则上在线策略的算法（如策略梯度）可以扩展到非平稳设置，但对于更有效的离线策略算法（在学习时重放过去的经验）则不能如此。在这项工作中，我们形式化了这个问题设置，并借鉴了在线学习和概率推理文献的思想，推导出了一个非策略RL算法，该算法可以对这种终身非平稳性进行推理和处理。我们的方法利用潜在变量模型从当前和过去的经验中学习环境的表示，并使用该表示执行非策略RL。我们进一步介绍了几种具有终身非平稳性的仿真环境，并从经验上发现我们的方法大大优于不考虑环境变化的方法

introduction

在标准强化学习（RL）模型中，假设agent在一个静止的环境中运行，即在固定的动态和奖励下。然而，平稳性的假设在更现实的环境中很少成立，比如在终身学习系统的背景下[54]。也就是说，在其生命周期中，一个agent可能会受到环境动态和随时间变化的奖励。例如，在机器人应用中，这种非平稳性表现在不断变化的地形和天气条件上。在某些情况下，甚至目标都不一定是固定的：考虑一个辅助机器人，帮助一个偏好随时间逐渐改变的人类。这些算法在现有的环境中是不可能很好地执行的，因为这些算法在现有的情况下是不可能很好地执行的。

至关重要的是，在上述每种情况下，环境都是由未知的时变参数指定的。这些潜在参数也不是i.i.d.，例如，如果此时天空晴朗，下一个时刻很可能不会突然开始下雨；换句话说，这些参数有关联但未观察到的动态。在本文中，我们用动态参数马尔可夫决策过程（DP-MDP）来形式化这个问题的设置。DP-MDP对应于一系列平稳的MDP，这些MDP通过一组由自治动力系统控制的潜在参数关联。虽然所有非平稳mdp都是部分可观测Markov决策过程（POMDP）[27]的特例，但在这种情况下，我们可以利用隐藏参数动态中可用的结构，避免在一般情况下求解POMDP。

在线策略RL算法原则上可以处理这种非平稳性[52]。然而，在高度动态的环境中，在环境发生变化之前只允许有限的交互，并且在策略上的方法可能无法在这种低镜头设置下足够快地适应[2]。相反，我们需要一个离线策略的RL算法，它可以利用过去的经验来提高样本效率和对环境动态进行推理。为了适应，agent需要预测MDP参数将如何变化的能力。因此，我们需要MDP的表示以及参数在这个空间中如何演变的模型，这两个都可以从离线策略的经验中学习到。

为此，我们的核心贡献是一个离线策略的RL算法，它可以通过联合学习（1）一个潜在变量模型（它提供了MDP的一个紧凑表示）和（2）一个最大熵策略与此表示相结合来在非平稳性下运行。 我们在一组显示持续非平稳性的模拟环境上验证了我们的方法，我们称之为终身潜在演员批评家（LILAC）。在我们的实验评估中，我们发现我们的方法远远优于不考虑环境动力学的RL算法。

DPMDP

标准RL设置假定与固定MDP发生偶发性交互作用[51]。在现实世界中，假设具有相同mdp的回合式交互作用是有限的，因为它没有捕捉到可能影响决策问题的各种外生因素。避免严格假设马尔科夫观测值的一个常见模型是部分观测MDP（POMDP）公式[27]。虽然POMDP非常通用，但我们在这项工作中重点关注利用非平稳MDP的已知结构来提高性能。特别地，我们考虑一个场景环境，我们称之为动态参数MDP（DP-MDP），其中每个回合中都会出现一个新的MDP（我们也称MDP为任务）。为了反映现实世界非平稳性的规律性，任务通过一组连续的参数进行顺序关联。

形式上，DP-MDP配备有状态空间S、动作空间A和初始状态分布ρS（s1）。根据隐参数MDP（HiP-MDP）[10]，一组未观测到的任务参数z∈z定义了每个任务的动力学ps（st+1 | st，at；z）和奖励函数r（st，at；z）。与HiP-MDP相比，DP-MDP中的任务参数z不是i.i.d.采样，而是根据pz（zi+1 | zi）随机移动，初始分布为ρz（z1）。换言之，DP-MDP是一系列由转移函数pz确定参数的任务序列。如果每个事件的任务参数z已知，扩展的状态空间S×z将定义一个完全可观测的MDP，我们可以使用标准RL算法。因此，在我们的方法中，我们的目标是推断隐藏的任务参数并学习它们的转移函数，从而允许我们利用现有的RL算法，通过使用推断出的任务参数来增加观测值。