【论文阅读】Generalization in Reinforcement Learning

最新推荐文章于 2024-05-07 11:02:11 发布

见见大魔王

最新推荐文章于 2024-05-07 11:02:11 发布

阅读量1.4k

点赞数

分类专栏：小见读文献文章标签： 1024程序员节

本文链接：https://blog.csdn.net/weixin_41960890/article/details/127491553

版权

小见读文献专栏收录该内容

33 篇文章

订阅专栏

【论文阅读】Generalization in Reinforcement Learning

原文为 Trustworthy Reinforcement Learning Against Intrinsic Vulnerabilities: Robustness, Safety, and Generalizability，是 2022 年 CMU 发表的综述文章。

本笔记只关注该文中的第四部分，即 强化学习中的泛化性。

1 概要

强化学习中的泛化性侧重于设计算法，以产生能够转移或适应各种环境的策略，而不对训练环境进行过拟合。这种能力对于强化学习智能体的实际部署至关重要，因为 测试时的环境通常与训练环境不同，或者在本质上是动态的。本文首先对泛化性的强化学习进行定义，随后介绍评估变化的两个维度，最后讨论现有增强强化学习泛化性的方法。

2 可泛化强化学习定义

为了在一个统一的框架中讨论泛化性，我们需要首先形式化一个环境集合的概念。我们在这里采用的形式化是 上下文马尔可夫决策过程 (Contextual Markov Decision Process)，是 Hallak 等人在研究中最早提出，在近期的一篇 survey 中也使用了该定义。上下文马尔可夫决策过程（MDP）将标准的单任务 MDP 扩展到多任务设置。

Assaf Hallak, Dotan Di Castro, and Shie Mannor. 2015. Contextual markov decision processes. arXiv preprint arXiv:1502.02259 (2015).

在本文中，我们考虑 discounted infinite-horizon CMDPs，表示为一个元组 $M=\left(\mathcal{S}, \boldsymbol{Z}, \mathcal{A}, R, P, p_0, \rho, \gamma\right)$ 。其中， $\mathcal{S}$ 为状态空间， $\boldsymbol{Z}$ 为上下文空间， $\mathcal{A}$ 为动作空间， $\mathcal{S} \times \mathcal{A} \times \mathcal{Z} \mapsto \mathbb{R}$ 为上下文相关的奖励函数， $\mathcal{S} \times \mathcal{A} \times \mathbb{Z} \mapsto \Delta(\mathcal{S})$ 为上下文相关的状态转移函数， $p_0: \mathcal{Z} \mapsto \Delta(\mathcal{S})$ 为上下文相关的初始状态分布， $\rho \in \Delta(\mathbb{Z})$ 为上下文分布， $\gamma \in (0,1 )$ 为折扣因子。需要注意的是，在非平稳环境分布的情况下， $Font metrics not found for font: .$ 可能是一个时间因变量。

为了在上下文 MDPs 中采样一个轨迹 $\tau:=\left\{\left(s_t, a_t, r_t\right)\right\}_{t=0}^{\infty}$ ，上下文 $Font metrics not found for font: .$ 是在每一集开始时由环境随机生成的。在这里，每个 $z$ 都定义了一个环境（即任务）。给定初始状态 $s_0 \sim p_0(\cdot \mid z)$ ，在每个时间步 $t$ ，智能体依据策略 $\pi$ 来选择动作 $a_t \sim \pi\left(s_t\right)$ 并接收到奖励 $R(s_t,a_t,z)$ 。随后，环境转移带下一个状态 $s_{t+1} \sim P(\cdot|s_t,a_t,z)$ 。在某些特殊情况下， $z$ 在每个时间步都被采样，所以它在整个情节中发生变化。

需要注意的是，本文调研的绝大部分工作并没有强调状态和观测的区别。然而，当评价的重点是针对观察结果的明显变化，而不是环境的潜在状态时，我们尝试引入上下文相关的发射函数 $o = O (s ∣ z)$ 。通过上下文 MDP 的形式化，我们可以定义泛化任务。

【可泛化强化学习的定义】 假设智能体是在环境分布 $\rho_{\text {train }}(z)$ 中进行 $N_{train}$ 个环境步训练的，目标是在目标任务分布 $\rho_{\text {test }}(z)$ 上执行 $N_{test}$ 个环境步后最大化性能度量 $P$ ：
$\begin{array}{ll} \max _{\pi_{\text {test }}^{\left(N_{\text {test }}\right)}} & \mathbb{E}_{\pi, z \sim \rho_{\text {test }}(z)} P_{\text {test }}^{N_{\text {test }}}(\pi, z) \\ \text { s.t. } & \pi_{\text {train }}^{\left(N_{\text {train }}\right)}=\arg \max _\pi \mathbb{E}_{\pi, z \sim \rho_{\text {train }}(z)} P_{\text {train }}^{N_{\text {train }}}(\pi, z), \\ & \pi_{\text {test }}^{(0)}=\pi_{\text {train }}^{\left(N_{\text {train }}\right)} \end{array}$
其中， $P^N(\pi,z)$ 表示在 $N$ 个环境步骤之后，关于任务上下文 $z$ 的策略 $\pi$ 的性能度量， $\pi^{(N)}$ 表示智能体在 $N$ 个环境步骤后的策略。需要注意的是，这里的“测试”并不一定意味着智能体不能更新，而指的是“目标”评估环境。只有在零镜头设置中，智能体才不能在测试阶段进行更新。

3 训练分布与测试分布之间的关系

本文将训练分布 $\rho_{train}(z)$ 和测试分布 $\rho_{test}(z)$ 之间的关系分为三个类别：IID，OOD 和 non-stationary。

【Independent-and-Identical Distribution (IID)】这种情况下，训练环境和测试环境是独立同分布的，即 $\rho_{\text {train }}(z)=\rho_{\text {test }}(z)$ 。需要注意的是，尽管我们正在描述分布之间的关系，但 RL 智能体通常是在从分布中抽取的一组样本 MDPs 上进行训练或测试的。因此，即使训练和测试来自相同的分布，这仍然是一个重要的问题，因为智能体在训练过程中可能永远不会经历完全相同的环境。定性地说，在训练过程中看到的不同上下文数量较少，由于训练环境是稀疏采样的，不能很好地表示真实的分布，因此 IID 泛化变得更加困难。

【Out-of-Distribution (OOD) (stationary)】在这种情况下，训练和测试环境是来自不同分布的采样，即 $\rho_{\text {train }}(z) \neq \rho_{\text {test }}(z)$ 。这种不匹配可能有很多原因。例如，确切的测试分布是未知的或难以建模的。研究 OOD 泛化的动机之一是实现模拟到实的转移。由于 RL 的数据效率较低，因此一种常见的做法是在模拟环境中训练智能体，然后进行转移到现实世界。然而，即使是最先进的模拟器也不能完美地捕获真实世界，而且模拟环境和真实环境之间的不匹配可能会导致部署过程中的灾难性故障。

【Non-stationary】在这种情况下，测试环境来自于时变的、非平稳的分布。虽然 OOD 和非平稳之间有一些重叠，但分为非平稳的研究关注于明确地处理非平稳性，例如 life-long or continuous RL。在这种情况下，存在一个（通常是无限的和未知的）测试分布序列 $\left\{\rho_{\text {test }, 1}(z), \rho_{\text {test }, 2}(z), \ldots\right\}$ ，智能体可能必须学习如何利用过去的经验、识别新的分布，并避免灾难性的遗忘。

3 可泛化性强化学习的方法

为了提高强化学习的泛化性，我们可以从三个角度进行方法设计：

设计指导训练的环境（Environment Design）
学习环境的特征（System Learning）
设计一个能够在测试阶段快速适应不同任务的学习算法（Online Adaptation）

3.1 Environment Design

由于可泛化 RL 的挑战往往来自训练环境和测试环境之间的差异，因此很自然会提出这样一个问题：如何设计/生成培训环境，以提高测试性能？

【Domain Randomization.】域随机化是一种在训练期间多样化模拟环境可变性的技术，使策略能够在测试期间泛化到真实环境。早期的工作使用随机的模型参数、在受扰动的动态模型上训练、随机视觉特征。

【Curriculum Learning.】上述工作依赖于手工挑选随机特征和值，这不可避免地需要一定程度的参数调整，以找到随机特征的适当值或分布。为了尽量减少人类工作量，最近人们对开发 自动领域随机化 和 课程学习 的方法越来越感兴趣。主动/自动域随机化利用模型的性能作为反馈信号来更新训练上下文的分布。Akkaya 等人 [5] 提出了 自动域随机化，只有当性能为最低水平时，才会逐渐增加训练环境的难度。Mehta 等人 [118] 提出 主动域随机化 来学习采样策略，通过利用随机环境和参考环境之间的性能差异，产生了信息最丰富的环境。

[5] Ilge Akkaya, Marcin Andrychowicz, Maciek Chociej, Mateusz Litwin, Bob McGrew, Arthur Petron, Alex Paino, Matthias Plappert, Glenn Powell, Raphael Ribas, et al. 2019. Solving rubik’s cube with a robot hand. arXiv preprint arXiv:1910.07113 (2019).

[118] Bhairav Mehta, Manfred Diaz, Florian Golemo, Christopher J Pal, and Liam Paull. 2020. Active domain randomization. In Conference on Robot Learning. PMLR, 1162–1176.

**对抗性训练（Adversarial training）**是课程学习的另一种常见形式。RARL [140] 将课程学习定义为 智能体和应用了扰动的对手之间的二人零和博弈。实证研究发现，这种对抗性训练可以提高 RL 智能体的泛化性。不同于上述的零和同步的游戏设置，PAIRED [36] 假设对手正在最大化遗憾，这被定义为最优智能体和当前智能体之间的性能差距。RRL-Stack [71]提出使用一般和 Stackelberg 博弈公式 来解决无法解决的环境和不稳定训练的潜在问题。

[140] Lerrel Pinto, James Davidson, Rahul Sukthankar, and Abhinav Gupta. 2017. Robust adversarial reinforcement learning. In International Conference on Machine Learning. PMLR, 2817–2826.

[36] Michael Dennis, Natasha Jaques, Eugene Vinitsky, Alexandre Bayen, Stuart Russell, Andrew Critch, and Sergey Levine. 2020. Emergent complexity and zero-shot transfer via unsupervised environment design. Advances in neural information processing systems 33 (2020), 13049–13061.

[71] Peide Huang, Mengdi Xu, Fei Fang, and Ding Zhao. 2022. Robust Reinforcement Learning as a Stackelberg Game via Adaptively-Regularized Adversarial Training. arXiv preprint arXiv:2202.09514 (2022).

课程学习的一个重要假设是对环境环境的访问和控制，因为算法需要积极地改变训练环境的分布。与我们在调查的后面部分中讨论的其他方法相比，课程 RL 确实需要更多的信息和对环境的控制。然而，在大多数情况下，这并不被认为是限制性的，因为 RL 智能体通常在模拟器中进行训练，因此访问不是一个主要的约束条件。课程 RL 作为一个新兴领域，其实证评价近年来引起了广泛的关注，但是对于它在实践中是如何或为什么工作的，理论理解很少。我们相信在这一领域很快就会有更多的研究。

3.2 System Learning

【Causality and Invariant Feature Discovery.】在动态系统和任务背后通常存在 潜在的因果关系，这决定了事物如何发生或一个对象如何影响另一个对象的机制。发现这种因果关系是 RL 中的一个流行话题，其中的方法通常可以分为 explicit learning 和 implicit learning。Explicit learning 方法通过微分优化 [87] 来估计图的结构，它通过干预性数据学习软相邻矩阵，或者通过统计学独立测试[39]，迭代性地更新世界因果模型和规划策略。Implicit learning 专注于从共享相同的潜在因果关系 [218,219] 的多个环境中提取不变特征。这种特征被认为是影响动力学的唯一重要因素。因此，可以通过给这个变量分配不同的值来表示不同的系统。

【Structural Modeling.】除了学习隐藏在环境中的因果关系外，结构建模还旨在建立环境之间建立明确的关系。这种关系的一个常见选择是保持一个 层次概率模型。在Wilson等人的 [195] 论文中，作者提出了分层贝叶斯多任务 RL（HB MTRL），它使用了 MDPs 的分层贝叶斯模型类。每一类 MDP 共享一些共同的结构，共享的知识可以在同一类的 MDP 之间传递。

3.3 Online Adaptation

【Online Identification.】在线识别从最通用的 RL 的反向角度采取了一种不同的方法。在线识别不是学习一个在广泛的环境中表现良好的策略，而是 识别现实世界中动态模型的参数，然后将它们作为控制器的信息。Yu等人 [215] 训练一个在线系统识别（OIS）来预测动态模型参数，并将它们与系统状态一起提供给控制器。

【Meta-Learning.】元学习，或学习学习，旨在从过去的经验中学习，以便能够快速适应新的看不见的测试任务。模型不可知元学习（MAML） 首次在 Finn 等人 [48] 中引入，使用基于梯度的方法在各种学习任务上训练模型，使它只使用了几个训练样本就能够适应新的学习任务。Nagabandi 等人 [125,126] 使用元学习来训练动态模型，这样该先验可以快速适应测试环境。Kaplanis 等人 [85] 提供了另一个思路，为 RL 智能体配备一个突触模型，可以减轻灾难性遗忘。

【Ensemble Learning.】集成学习的目的是学习一组模型，并将它们结合起来，以提高测试过程中的性能。与结构建模不同的是，集成学习并不关注于维护模型之间明确的（主要是层次化的）关系。相反，它通常假设模型的扁平结构，并关注在测试期间的策略适应。Rajeswaran等人 [145] 根据训练环境的集合学习了一个稳健的策略，并利用测试环境的数据不断调整训练环境的分布。使用测试环境的数据对训练环境的分布进行调整。

[48] Chelsea Finn, Pieter Abbeel, and Sergey Levine. 2017. Model-agnostic meta-learning for fast adaptation of deep networks. In International Conference on Machine Learning. PMLR, 1126–1135.

[125] Anusha Nagabandi, Ignasi Clavera, Simin Liu, Ronald S Fearing, Pieter Abbeel, Sergey Levine, and Chelsea Finn. 2018. Learning to adapt in dynamic, real-world environments through meta-reinforcement learning. arXiv preprint arXiv:1803.11347 (2018).

[126] Anusha Nagabandi, Chelsea Finn, and Sergey Levine. 2018. Deep online learning via meta-learning: Continual adaptation for model-based rl. arXiv preprint arXiv:1812.07671 (2018).

[85] Christos Kaplanis, Murray Shanahan, and Claudia Clopath. 2018. Continual reinforcement learning with complex synapses. In International Conference on Machine Learning. PMLR, 2497–2506.