强化学习泛化性综述论文阅读 A SURVEY OF GENERALISATION IN DEEP REINFORCEMENT LEARNING

孙敬博

已于 2022-12-03 15:20:44 修改

阅读量1.9k

点赞数 7

分类专栏：强化学习泛化性文章标签：论文阅读

于 2022-11-29 23:43:26 首次发布

本文链接：https://blog.csdn.net/bofu_sun/article/details/128076452

版权

强化学习泛化性专栏收录该内容

2 篇文章 0 订阅

订阅专栏

强化学习泛化性综述论文阅读

摘要
一、介绍
二、相关工作：强化学习子领域的survey
三、强化学习中的泛化的形式
四、强化学习中的泛化基准
五、强化学习中的泛化方法
六、讨论和未来工作

摘要

DRL泛化研究目的是将算法部署在新未知环境中仍然具有很好的效果，而不只是在训练环境有较好的效果。

泛化性的研究是在现实场景中实现DRL部署的重要环节。因为在现实世界中，环境将是多样的、动态的和不可预测的。

这篇文章的工作：1. 定义了强化学习泛化性的形式化定义。 2. 对现有的通用化基准及解决通用化问题的方法进行分类。3. 对该领域的现状进行批判性讨论和展望。

其他观点：1. 采用纯程序性内容生成方法进行基准设计不利于通用化的进展，建议快速在线适应和解决RL特定问题，作为未来通用化方法工作的一些领域。 2. 建议在未充分探索的问题设置中构建基准，例如离线RL泛化和奖励函数变化。

一、介绍

强化学习可应用于自动驾驶、算法控制、机器人等，但实现需要在真实环境中使用，而真实环境又是复杂变化的。因此，RL算法需要对环境的变化具有鲁棒性，并且在部署过程中能够转移和适应不可见的（但类似的）环境。
当前RL研究主要在Atari和MuJoCo等基准上进行，它们在完全相同的环境下评估政策，与现实场景不匹配（下图左栏）。这与监督学习完全不同，监督学习分为训练集与测试集属于不同分布。因此RL可能会严重过拟合，即使稍微调整环境算法也无法获得好的效果（如改变随机种子）。
研究侧重于生成其策略具有所需鲁棒性、传递和自适应特性的算法，挑战训练和测试将是相同的基本假设（下图中和右栏）。
本文研究范围：zero-shot策略转移问题。这要求将训练好的策略迁移到新的环境中不能进行额外的训练，因此域自适应和许多元RL方法的含义方法是不适用的。
文章结构：第2节简述相关工作；第3节介绍RL及泛化性背景；第4节描述RL中通用化的当前基准，同时讨论了环境（4.1）和评估协议（4.2）；第5节对工作产生方法进行了分类和描述，以解决普遍化问题；第6节对当前领域进行批判性讨论和展望；第7节总结了调查中的主要收获。
文章贡献：
（1）提出了一种形式主义和术语描述RL泛化性问题。
（2）提出了一个可用于测试泛化性的基准分类，讨论分为分类环境和评估协议。总结PCG方法的缺点：完全PCG环境限制了在该环境下进行的研究的精度，建议未来的环境应使用PCG和可控变化因素的组合。
（3）建议对现有方法进行分类，以解决各种泛化问题。进一步研究途径，包括快速在线适应、解决RL特定的泛化问题、新颖的架构、基于模型的RL和环境生成。
（4）给出展望，建立基准将使离线RL通用化和奖励功能变化取得进展。指出了几个值得探索的不同设置和评估指标：调查上下文效率和进行连续RL设置都是未来工作的必要领域。

（图中可见，经典RL侧重于训练和测试相同的环境（单例环境，第一列），但在现实世界中，训练和测试环境将不同，要么来自相同的分布（IID泛化环境，第二列），要么来自不同的分布（OOD泛化环境，第三列））

二、相关工作：强化学习子领域的survey

以往的survey工作包括：
（1）持续强化学习（CRL）：这与RL中的泛化密切相关，但未考虑zero-shot的特性。
（2）鲁棒RL（RRL）：聚焦于解决环境模型中最坏情况的效果，是泛化性的一个子领域。
（3）sim-to-real：模拟到真实是泛化问题的具体实例，sim-to-real的一些方法依赖于来现实数据。
（4）RL迁移学习（TRL）：TRL与泛化相关，都假设策略在不同环境中训练，但TRL侧重于额外训练，这里侧重于zero-shot。
（5）多任务深度RL
（6）RL中的探索
（7）RL中课程学习

三、强化学习中的泛化的形式

3.1 监督学习中泛化性

监督学习中，通常假设训练和测试数据集来自相同分布，其泛化性与测试效果相同。具有训练和测试数据Dtrain、Dtest和损失函数L的模型φ的监督学习中的广义差距定义为
在这里插入图片描述
对于泛化性的五种概括：
（1）系统性：通过系统地重组已知的部分和规则来概括
（2）生产力：将预测扩展到超出训练数据长度的能力
（3）替代性：通过用同义词替换组件的能力来概括，
（4）.局部性：如果模型合成操作是局部的，而不是全局的
（5）过度概括：如果模型关注异常或对异常具有鲁棒性

3.2 强化学习泛化性背景

RL中的标准形式是马尔可夫决策过程（MDP），MDP由元组M=（S，a，R，T，p）组成。
POMDP是部分可观测马尔可夫决策过程，POMDP由一个元组M=（S，A，O，R，T，φ，p）组成，其中o是观测函数，φ是状态到观测的转移函数。

3.3 上下文马尔可夫决策过程

讨论泛化性需要一种方法谈论一系列任务、环境或级别。如OpenAI的Procgen，标准协议是在200个级别的固定集合上训练策略，然后评估级别的完整分布的性能。
为正式化任务集合的概念，这里从上下文马尔可夫决策过程（CMDP）开始。这里状态变为 $s=(c,s^{'}) \in S_{C}$ ，其中 $c$ 是上下文信息， $s^{'}$ 是基础状态。其中上下文 $c$ 代表种子、ID或参数向量这些决定任务的信息。因此在一个episode里 $c$ 不会发生变化，在不同的episode中 $c$ 才不同。CMDP是任务或环境的全部集合，在Procgen中，每个游戏都是一个单独的CMDP。
这里通常假设智能体无法观察到上下文信息c，因此将CMDP看作可以观察到状态s的POMDP。其中观测转移函数为： $\phi (s^{'},c) = s^{'}$ 。
奖励函数、转移函数、初始状态分布和发射函数都将上下文作为输入，因此上下文决定了MDP。每个上下文MDP代表了一种任务的等级或类型。
一些MDP具有随机过渡或奖励功能，因此进行试验时需进行随机种子的设置，理论上讲这些种子可以被看作是上下文。但这里作者不认为它是上下文，这更紧密地映射到具有随机动力学的真实场景，在那里无法控制随机性。

3.4 训练和测试上下文

由于泛化性源自训练集和测试集的差异，因此需要指定一组训练和测试的上下文MDP（因为上下文决定MDP）。
划分训练集和测试集时，对于任意的CMDP： $M = \{S, A, R, T, C, p \}$ ，可以生成一个子集 $C^{'} \in C$ ，通过上下文子集划分训练和测试集。（如设置procgen的种子）。
训练：
对于任何CMDP，其期望回报可设置为：

其中，R是策略奖励， $p (c)$ 是上下文分布。
在上下文训练集中训练，上下文测试集中测试，目标就是在测试集中的表现：

如procgen中，使用200关作为训练集，使用全分布作为测试集，实现zero-shot的迁移。
与监督学习一样，可以将训练和测试效果之间的差距作为通用性的衡量标准：
这种形式主义定义了一般化问题，每个问题都由CMDP、训练和测试上下文集的选择决定。

3.6 应用实例

openai的procgen：游戏由不同层次组成，具有不同的布局或敌人数量，以及不同的视觉风格，不会影响动态或奖励功能。在这种环境中，上下文是一个随机种子，作为级别生成的输入。
Sim-to-real：上下文集分为与模拟相对应的上下文和与现实相对应的上下文。环境决定了动力学、观察功能和状态空间。CMDP通常可以理解为两个CMDP的有效结合，一个用于现实，一个模拟，具有共享的行动空间和观察空间类型。领域随机化的动机是，在模拟中产生广泛的可能上下文将使上下文的测试分布更接近扩展的训练分布。
医疗保健：未来RL部署的一个有前途的领域，因为存在许多顺序决策问题。如，诊断和治疗单个患者的任务可以理解为CMDP，其中患者有效地指定了上下文：患者对测试和治疗的反应不同（动态变化），并可能提供不同的测量（状态变化）。上下文总是可以调节相关MDP函数以控制变化。假设某些部分的上下文（或关于上下文的某些信息）是可观察的，因为可以访问患者的病史和个人信息。
自动驾驶：在不同的地点（状态空间变化）、由于一天中的时间（观察功能变化）而在不同的天气和照明条件下以及在不同的路面上驾驶（动态变化）都是这些系统需要解决的问题。

3.7 更可行泛化的其他假设

仅使用CMDP结构假设难以给出泛化效果的理论保证。必须做出进一步的假设。这些是关于类型变化、训练和测试上下文集的分布或上下文集中的附加基础结构的假设。

训练和测试上下文集分布的假设
假设：
（1）尽管训练和测试上下文集不相同，但这两个集合的元素来自相同的基础分布，类似于监督学习中的iid数据假设。如 OpenAI Procgen的设置，其中训练上下文集是从种子的全分布中随机均匀采样的200个种子的集合，并且全分布被用作测试上下文集。
（2）许多RL泛化工作不假设训练和测试环境来自相同的分布。被称为领域泛化，这里将训练和测试环境称为不同的领域，这些领域可能相似，但不是来自相同的底层生成分布。典型的如sim-to-real。
结构的进一步形式化假设
假设：
（1）块MDP：假设在从潜在状态空间到给定观察空间的映射中存在块结构，或者存在由具有与给定MDP相同行为的较小状态空间描述的另一MDP。Du等人[39]使用这一假设来改善勘探边界，这取决于潜在状态空间的大小，而不是给定的观测空间。Zhang等人[40]开发了一种表示学习方法，该方法将相关特征与不相关特征区分开来，改善了对只有不相关特征变化的环境的泛化。
（2）因子MDP：可用于描述面向对象的环境或多智能体设置，其中状态空间可分解为独立的因素。

3.8 备注和讨论

泛化的度量
有两种明显的方法可以评估模型的泛化性能。一种是只看评估任务的绝对表现，另一种是看泛化差距。在监督学习中，不同算法的泛化能力通常通过评估任务的最终性能来评估。在RL中，我们更关心算法的泛化潜力，方法是将泛化与训练性能解耦，并使用泛化间隙进行评估。
但在如此广泛的类别中，目标甚至可能相互冲突。各种RL算法的泛化性能可能取决于其部署的环境类型，因此需要对部署时存在的挑战类型进行仔细分类，以正确评估泛化能力。
解决泛化问题的角度
为了提高测试性能，可以（1）提高训练时间性能，同时保持泛化间隙恒定，（2）减少泛化间隙，同时保持训练时间奖励恒定，或者（3）混合使用两种方法。在RL中，与泛化无关的工作采用第一种方法，RL中的泛化工作目标是（2）。
Zero-shot策略转移动机
在这项工作中，专注于zero-shot的策略转移：策略从训练CMDP转移到测试CMDP，并且不允许在测试上下文中进行任何进一步的训练。

四、强化学习中的泛化基准

本节给出了RL泛化的基准分类。基准任务是环境选择（CMDP，第4.1节）和适当的评估协议（训练和测试环境集，第4.2节）的组合。对基准进行分类后，作者指出纯PCG方法生成环境的局限性（第4.3节，通用化程序内容生成的缺点），并讨论了泛化问题中困难的范围。

4.1 环境

4.1.1 泛化环境的分类

表1中列出了RL中测试泛化的可用环境，并总结了每个环境的关键属性。这些环境都提供了一个非单例上下文集，可用于创建各种评估协议。选择一个特定的评估协议，然后产生一个基准。
Style：给定一个高级别描述
Contexts：描述了上下文集。有两种设计上下文集的方法，其区别在于是否可以看到上下文内容。
（1）第一种，叫做过程性内容生成（PCG），使用随机种子来在上下文MDP生成期间确定选择。是一个黑箱过程，只选择一个种子。
（2）第二种，叫做可控环境，对上下文MDP之间的变化因素提供了更直接的控制。上下文集通常是多因素空间，既包括连续空间又包括离散空间。
后面使用“PCG”表示使用种子作为输入的黑盒PCG，使用“可控”来指直接更改上下文MDP相关参数的环境，即白盒PCG。
Variation：描述了上下文MDP集合中的变化。可以是状态空间变化（、动态变化（过渡函数）、视觉变化（观察函数）或奖励函数变化。
分类列表：

在上下文列中，PCG表示过程内容生成，Con表示连续，Dis-C表示离散基数，Dis-O表示离散序数。在变异栏中，S、D、O和R分别是状态、动态、观察或奖励函数变异。

4.1.2 环境趋势

环境中网格世界（14.25%）和连续控制（13.24%）受到关注，但街机风格和3D环境的基准已经确立。PCG在通用环境中大量使用，在21个（38%）环境中使用。许多环境将PCG组件与可控变化相结合。大多数环境在其上下文集合中有几种不同的变化因素。
在变化方面，状态变化最常见（42，76%），其次是观察（29，53%），然后是奖励（20，36%）和动态（19，35%）。
在基准集合中可以分类：PCG状态变化的网格环境（MiniGrid、BabyAI、Crafter、Rogue-gym、MarsExplorer、NLE、MiniHack），非PCG观察变化的连续控制环境（RoboSuite、DMC Remasted、DMC-GB、DCS、KitchenShift、NaturalEnvs、MuJoCo），以及可适用于zero-shot泛化的多任务连续控制基准（CausalWorld、RLBench、Meta-world）。

4.2 泛化评估协议

评估协议规定了训练和测试上下文集、训练时对训练集采样的限制以及训练环境中允许的样本数量。

PCG评估协议
PCG环境提供了三类评估协议，分别为
A：单个上下文训练，整个上下文集测试
B：一小组上下文训练，整个上下文集测试
C：完整上下文集训练，其中的一组上下文测试
对于A，由于难度太大，目前没有实例。
对于B，可能会出现在训练集上过拟合而导致在测试集上效果不好的情况。该协议的示例包括OpenAI Procgen、RogueGym的两种模式，JumpingFromPixels和MarsExplorer的一些使用。
对于C，并没有明显地针对泛化问题，它的测试集来自训练集的一部分，但相对于原始RL的协议具有一定的泛化性。这里作者任务C应该是标准RL的评估协议，原来的评估协议只是一个特例。
A,B,C分别对应于下图的三列。
可控环境评估协议
主要为下图，考虑训练上下文，在其基础上进行内推分布测试、单个因子的外推测试和多个因子的外推测试。

4.3 讨论

非视觉泛化：非视觉类型的泛化应使用视觉简单的领域，如MiniHack[77]和NLE[79]。这些环境包含足够的复杂性，可以测试许多类型和非视觉概括的优势。有许多现实世界中的问题设置不需要视觉处理，例如系统控制和推荐系统。
DeepMind控制套件变体：泛化基准的一个子类别是DeepMind Control Suite[99]变体的选择：DMC-Remastered, DMC-Generalisation Benchmark, Distracting Control Suite, Natural Environments [61, 60, 37, 78]。这些环境都关注视觉概括和样本效率，需要从像素学习连续的控制策略。其中Distracting
Control Suite是功能最全面的变体，因为它具有最广泛的变体，其中最难的组合是当前方法无法解决的。
无意的泛化基准：一些环境最初并不是泛化基准，但可以通过不同的评估协议来适应这种情况。包括CausalWorld, RWRL, RLBench, Alchemy, Meta-world等。建议在使用这些基准测试时明确使用哪种协议，并与之前方法的评估进行比较。使用标准方案有助于再现性。
泛化过程内容生成的缺点：PCG往往使用随机种子集，没有用于控制上下文MDP之间的变化的附加结构。
（1）PCG很有用，但纯PCG存在一些问题：这些环境支持的评估协议范围限于不同大小的训练上下文集，不对其特定因素进行解耦难以进行一般化。通常需要付出更多的努力才能将这些因素设置为特定的值，而不是仅显示生成级别的值。因此纯PCG无法对特定类型的通用化进行更具针对性的评估。
（2）一个折中方案：在程序上产生一些低水平的环境，但仍有许多变化因素在研究人员的控制下。如，障碍塔[82]有程序生成的平面布局，但视觉特征（以及某种程度上的布局复杂性）可以控制。另一个例子是MiniHack[77]，其中可以用丰富的描述语言从头开始指定整个MDP，如果需要，PCG可以填充任何组件。为了在环境（尤其是状态空间）中产生足够的多样性，需要使用PCG，如果控制足够精细，能够进行精确的科学实验，那么环境仍然有助于解开一般化的进展。
上下文MDP中的合成泛化
（1）可以使用多维上下文集来评估系统性，并测试训练时未看到的上下文维度的新组合（图3中的组合内插）。
（2）可以用顺序或连续因素进行评估，衡量在环境中表现良好的能力，环境值超出了训练时的环境值（图3中的任一种外推）。
需要一个具有结构化上下文空间的可控环境来测试这些形式的合成泛化，并确保智能体在测试时看到真正新颖的组合；这在OpenAI Procgen[36]或NLE[79]等PCG环境中很难验证。
（3）使用同义词（在语言中）或等效对象和工具的替代性。
（4）通过将分别给出命令A和命令B的代理的解释与A+B的组合进行比较。
（5）通过代理人如何对语言或环境规则中的异常做出反应而过度概括。
理想的泛化性
由容易到困难的评估协议如下：
（1）增加样本数量可以提升测试效果，但对于泛化能力提升却不大。增加上下文的数量可以使泛化性评估协议更容易。
（2）在测试上下文集合中进行外推或组合内插的变化因素的数量也可以变化。数量越多，评估方案就越困难。此外，外推因子在训练时采用的值范围的宽度可以变化。这与背景的数量有关，但也与这些变化轴上训练时可用的变化有关。
（3）作者考虑了沿着不同类型的变异因素进行插值和外推的困难。沿着序数轴的插值可能是最简单的，然后是主轴插值（通过基数轴与任何其他轴的可见值的不可见组合进行），然后沿着序数轴进行外推。最后，沿着主轴的外推是最困难的。
标准RL方法很难在泛化性问题中获得好的效果。在涉及某种形式外推的更困难的协议中，标准RL方法根本不可能出现泛化，因为没有理由期望政策正确泛化到完全看不见的值。因此需要考虑从相关环境传输现有知识的方法：强烈的归纳偏差、关于变化的假设或利用在线适应。

五、强化学习中的泛化方法

这里将泛化性方法分为尝试提高训练和测试数据与目标之间的相似性的方法（第5.1节）、明确旨在处理训练和测试环境之间差异的方法（5.2节）以及针对RL特定问题或优化改进的方法（5.3节）。
下图是分类图：
在这里插入图片描述
下表按方法、评估的环境变化以及它们是否主要改变环境、损失功能或架构对方法进行分类：

对解决RL中的一般化问题的所有方法进行了分类。列表示评估该方法的变化类型（见表1），行表示图4中的分类。颜色（和文本样式）表示该方法进行的主要调整：绿色普通文本方法主要通过调整训练环境来工作，红色单空间文本方法主要通过调整架构来工作，蓝色斜体方法主要通过调整目标或损失函数（包括增加辅助损失）来工作。虽然更改损失通常需要架构调整，并且架构更改通常需要调整损失，但我们关注方法的原始动机。

5.1 增加训练集与测试集的相似性

在其他条件相同的情况下，训练和测试环境越相似，泛化差距越小，测试时表现越好。

5.1.1 数据增强和域随机化

使训练和测试数据更相似的两种自然方法是数据增强[104]和域随机化[105、106、107]。当已知训练和测试环境之间存在差异时该方法比较有效，但这种方法难以捕捉到更强类型的变化。
数据增强（DA）可以从两个角度去考虑。一方面，可以将增强的数据看作训练模型的附加数据，这样DA可以增加训练和测试数据之间的相似性。另一方面可以通过对模型进行正则化使不同的增强数据点具有相同的输出，来强制学习不变性。第二种主要涉及编码归纳偏置，在5.2中详细介绍。
在强化学习中使用DA技术的方法有很多，但并不全是用来解决泛化性问题的。
（1）Raileanu等人[108, UCB DrAC]将DA技术DrQ[109]应用于Actor-Critic设置中（PPO），并介绍了一种在训练期间自动选择最佳增强的方法。
（2）Wang等人[111, Mixreg]在RL设置中使用mixup[112] ，鼓励策略的输出相对于可能输入的混合是线性的。
（3）张和郭[113, PAADA]使用对抗性DA和mixup的结合。
（4）Lee等人[114, RandFM]在网络开始时使用随机卷积层，以提高对各种视觉输入的鲁棒性。
（5）[115, MixStyle]将不同空间维度的统计数据混合在一起，以提高数据多样性。
以上方法：[108、111、113、114、115]通过提高训练和测试性能，在CoinRun[116]或OpenAI Procgen[36]上显示出改进的性能。
（6）Hansen和Wang[60，SODA]使用了与之前类似的增强，但增强数据用于学习图像编码器。强化学习的训练在原始数据上进行。该方法在DMC-GB上显示了良好的性能[60]。
（7）James等人[117, RCAN]使用DA来学习从不同角度观察到状态到规范状态的视觉映射，然后针对该规范观察训练策略。他们在机器人抓取任务中表现出改进的sim-to-real性能。
何时使用数据增强很重要
（1）Ko和Ok[118, InDA，ExDA]表明，什么时间使用增强学习很重要，有的在训练时进行数据增强很有用，有的只需要使用在最终策略中。
（2）Fan等人[51, SECANT]介绍了一种将DA与策略蒸馏相结合的方法。由于对强数据增强会阻碍训练性能，他们首先对弱扩充进行训练，以获得专家策略，然后将其提炼进经过强增强训练的学生策略。
（3）Hansen等人[119, SVEA]认为，简单地使用DA会增加Q值的方差，使学习不稳定。他们对DA进行了调整，计算损失时只对特定部分进行增强，在DMC-GB[60]中测试效果。
总结而言，何时应用增强以及应用何种类型的增强的选择是非常重要的。
域随机化（DR）使在参数分布中对环境进行随机实现，目的是让测试环境被训练的环境分布所覆盖。即创建一个训练上下文集，然后从该集合中随机抽样。
（1）OpenAI等人[3]设计了自动域随机化：该方法不是随机均匀地采样环境参数，而是根据智能体的当前性能动态调整分布。
（2）Ren等人[120, Minimax DSAC]使用对抗训练来学习DR，以提高鲁棒性。
（3）赵和Hospedales[121, P2PDRL]通过对等网络蒸馏改善DR。
（4）Wellmer和Kwok[122, DDL]学习了一个世界模型，在世界模型中训练策略，并将dropout应用在世界模型中的循环网络中，有效地执行了想象中的DR。
（5）PCG[96] 也可以视为DR的一种形式。
DR上的工作通常利用使用非均匀上下文分布中可能性不同的特点，即环境可能性在训练期间会有所不同。
在DA和DR方法中，随着训练环境的复杂和随机化，优化变得困难。因此[117，60，51]在非随机或仅弱随机环境下训练RL策略，同时使用其他技术，如监督或自我监督学习来训练鲁棒的视觉编码器。
DA往往专注于上下文集中的视觉变化，因为这是最容易产生有效数据增强的变化。DR侧重于动态变化，作为解决sim-to-real问题的一种方法，假设动态将在训练（模拟）和测试（现实）之间发生变化。

5.1.2 环境生成

在DR和PCG生成上下文MDP时，通常假设所有上下文MDP都是可解的。但环境中可能出现两种例外情况：（1）上下文MDP不可求解，（2）环境对训练没有用。如在网格世界迷宫环境中，块放置可能生产无法解决的迷宫，同时有的可能会产生非常简单的迷宫。为解决以上问题，需要学习生成新的级别或上下文MDP以保证有用。理想中希望训练上下文MDP上的分布更接近测试上下文集，而测试上下文集只有可解的上下文MDP。

POET框架
（1）Wang等人[123]设计了开放式开拓者（POET），这是一种生成联合进化上下文MDP并解决该问题的方法。这种方法能够解决看不见的级别实例，并比从头开始的训练或简单的课程表现更好。
（2）Wang等人[124]在POET的基础上，对开放式算法进行了改进。包括对新生成的上下文MDP及其创新程度的测量。这些添加改进了生成的上下文MDP的多样性和复杂性。
UED框架
（1）Dennis等人[125]设计了类似于POET的无监督环境设计（UED）框架，用于以无监督的方式生成上下文MDP，用于训练。其目的是改进对环境MDP空间内或外部未发现任务zero-shot的泛化。他们的方法PAIRED在上述网格世界设置中，在zero-shot设置中优于标准DR和类似于POET的方法。
（2）Jiang等人[126]扩展了UED框架，将其与优先级回放（PLR）[127]相结合，并推动将PLR理解为一种环境生成算法。这种组合方法在对网格世界迷宫和2D赛车场中未发现的分布外任务的泛化方面表现出了改进的性能。
环境生成和DR都是调整环境提供的下文集中上下文分布的方法。环境生成倾向于学习这种采样过程，并且针对的环境是上下文集是非结构化的，以保证所有上下文MDP都是可解的或对训练有用的。DR工作通常使用硬编码启发式或非参数学习方法来调整上下文分布，并且专注于域都是可解决的但可能具有不同困难或学习潜力的设置。这两者通常也可以被视为自动课程学习的一种形式[128]，特别是在训练期间上下文分布发生变化的情况。
这一领域非常新，预计会有更多的研究。但它需要一个以相当精细的细节级别生成上下文MDP环境。环境生成方法可以针对任何类型的变化进行泛化。

5.1.3 优化目标

可以考虑将优化目标（显式或隐式）更改为更符合测试性能的目标。

改变计算训练目标的分布可以看作改变优化目标。一个初始示例是PLR[127]，其改变了水平上的抽样分布，以提高学习效率和训练策略的泛化性能。他们在OpenAI Procgen上展示了提高的训练和测试性能，该方法有效地形成了一个不同级别的粗略课程，实现了更高的样本效率学习。
鲁棒RL（RRL）也针对zero-shot问题，这些方法采用最坏情况优化方法，在一组可能的环境扰动（可以理解为不同的上下文MDP）上最大化最小性能，并专注于改进对未知动态的泛化。
（1）Chen和Li[26]对该领域进行了概述和介绍。
（2）Abdullah等人[129，WR2L]使用围绕转换函数的Wasserstein球来定义扰动集，从而优化最坏情况下的性能。
（3）Mankowitz等人[130，SRE-MPO]将RLL并入MPO[131]，并在RWRL基准测试上显示出改进的性能[89]。
（4）Pinto等人[132，RARL]通过使用对手来优化鲁棒RL目标，该对手被训练为选择对过渡函数的最坏扰动。

5.2 处理训练和测试之间的差异

策略没有办法完成训练集到测试集的迁移的原因：模型在训练集中学习的东西在测试集的环境中发生改变。本节尝试处理训练和测试环境的差异。

5.2.1 编码归纳偏好

归纳偏好指的是一种方法更倾向于使用哪种方式去总结归纳处理特征。这一部分我理解是当可以区分哪些变化是重要的，哪些变化是不重要的是，使用归纳偏好来进行归纳。

如果知道特征在训练和测试环境MDP之间的区别，可以使用归纳偏置来确保模型不依赖于会改变的特征，只依赖于在训练和测试环境中表现类似的特征。（如：颜色在训练和测试之间变化，并且颜色与任务无关，那么可以在处理之前从视觉输入中删除颜色。）
一般归纳偏置
（1）IDAAC[133]增加了一个对抗正则化项，鼓励策略的表征不预测episode中的时间。这种不变性对于OpenAI Procgen[36]很有用，因为时间步长与最优策略无关。
（2）希金斯等人[16，DARLA]使用β-V AE[134]将解耦的归纳偏置编码到策略的表征中，提高了各种视觉变化的zero-shot性能。
（3）Vlastelica等人[135，NAP]结合了黑盒最短路径求解器，以提高硬导航问题中的泛化性能。
（4）Zabaldi等人[136, 101]将相关归纳偏好纳入模型架构，有助于沿着变化的序数轴进行概括，包括外推性能。
（5）Kansky等人[137, SchemaNetworks]使用面向对象和以实体为中心的结构，结合结构学习方法，学习可基于反向链接的规划的逻辑方法。只要动态一致，这些模式就将zero-shot推广到新的状态空间
（6）Wang等人[138，V AI]使用无监督的视觉注意力和关键点检测方法来强制视觉编码器仅编码与视觉图像的前景相关的信息，对前景是视觉输入中唯一重要的部分的归纳偏差进行编码。
基于Attention Agent
（1）Tang等人[58]介绍了Attention Agent，它使用神经进化来优化具有硬注意力瓶颈的架构，从而导致网络只接收一小部分视觉输入。这里的关键归纳偏好是性注意力机制选择的有利于优化和泛化的特征。他们的方法zero-shot应用到CarRacing [6] 和 VizDoom [139, 59]中不可见部分。
（2）Tang和Ha[140, SensoryNeuron]在AttentionAgent基础上，在输入空间中加入排列不变性的感应偏置。他们认为这对于改进泛化是有用的，原因是用于置换不变架构的注意机制鼓励智能体忽略输入空间中不相关的部分。
（3）François Lavet等人[141，CRAR]在低维潜在空间中使用了结合动态学习和价值评估的模块化架构，并在简单的迷宫任务上显示出改进的通用性。
大预训练模型：
Hill等人[142，SHIFTT]和Lynch和Sermanet[143，TransferLanfLfP]都使用大的预训练模型[144，145]来编码指令跟随任务的自然语言指令，解决奖励函数变化问题，具有很好的泛化效果。这可以被视为利用领域知识，通过引入自然语言的归纳偏置来改进对新目标的泛化。
虽然这一领域的方法似乎不同，但它们都有将特定的归纳偏见纳入RL算法的动机。有几种方法可以将领域知识作为归纳偏好：可以更改模型的架构以正确处理变化。如果变化对于策略没有影响可以将其删除或使用对抗性正则化来确保政策的表示不变。

5.2.2 正则化和简单化

当不能编码特定的感应偏置时，可以使用标准正则化。即奥卡姆剃刀：最简单的模型可能是最好的模型。更简单的模型依赖更少的功能或功能组合。例如，L2权重衰减使网络偏向于不太复杂的特征，丢弃不重要的特征组合，信息瓶颈确保只使用信息量最大的特征。
监督学习中规范化技巧
（1）Cobb等人[116]介绍了CoinRun，并在基准上评估了RL的规范化技术。他们研究了数据增强、丢弃、批量规范、L2权重衰减、策略熵以及所有技术的组合。这些技术都单独提高了性能，组合后进一步提高了性能。但与单独的方法相比，组合的效果很小，可能他们只解决了简单泛化的问题。
（2）early stop也可以看作一种正则化形式，Ada等人[148]表明，将训练轮数视为超参数可以提高某些基准的泛化性能。
信息理论规范化技术（信息瓶颈）
有几种方法利用信息理论规范化技术，以信息瓶颈为基础[149]。
（1）Igl 等人 [150, IBAC-SNI] and Lu 等人 [151, IB-annealing] 同时引入了依赖于信息瓶颈的方法，以及其他提高性能的技术，分别在OpenAI Procgen和各种随机迷宫和连续控制任务上展示了改进的性能。
（2）Eysenbach等人[152，RPC]将信息瓶颈的动机具体扩展到RL设置，学习动态模型和策略，通过使用来自先前状态的信息来预测未来状态，从而共同最小化从环境中获取的信息。这导致策略使用的信息比以前少得多，这有利于鲁棒性和泛化性。但未在基准上进行测试。
（3）Chen[153，SMIRL]使用意外最小化来提高训练策略的泛化性，但实验需要进一步评估。
Song等人[17]表明，更大的模型可以导致隐式正则化：更大的模式，尤其是具有残差网络的模型，在相同的训练步数上有更好的泛化。

5.2.3 学习不变性

有时我们不能依赖特定的归纳偏好或标准规范化。根据“没有免费午餐”，不能期望一个策略能够推广到任意的环境。但可以考虑几种技术：其核心思想是使用多个训练上下文来学习可以泛化到测试上下文的不变特征。如果训练环境中的变化因素与训练和测试环境之间的变化因素相同，并且这些因素在训练和测试环境中相差不大，那么可以使用它们来学习变化因素。
基于因果推理学习训练上下文不变特征：
（1）Zhang等人[40, ICP]假设了块MDP结构[39]，并利用该假设学习不相关的特征，提升了泛化性。
（2）Zhang等人[154, DBC]使用互模拟度量来学习对无关视觉特征不变的表征，并表明互模拟度量与因果推断相关。
（3）Kemertas和Aumentado Armstrong[155, DBC normed IR ID]通过对规范化表征空间、使用内在奖励和规则化来改进DBC。
（4）Agarwal等人[156, PSM]提出了互模拟度量的局限性，并提出了一种策略相似性度量，如果最优策略在当前和未来状态中具有相似的行为，则状态相似。他们使用这种度量，结合对比学习方法，学习对观察变化不变的策略。
使用多个上下文来学习不变表征，假设它们可以泛化到测试上下文：
（1）Sonar等人[157, IPO]将不变性风险最小化[158]的思想应用于策略优化，学习一种能够实现所有领域的联合优化行动预测的表征，并在多个视觉和动态变化环境中表现出比PPO更好的性能。
（2）Bertrán等人[159, IAPE]引入了Instance MDP，这是泛化问题的一种替代形式。激励学习训练域子集上的策略集合，使聚合策略对不会泛化到特定上下文的特征是不变的。与标准规范化技术相比，他们在CoinRun基准测试[116]上的表现有所改善。
（3）Ghosh等人[13, LEEP]也在上下文的子集中训练，产生了不变策略，他们使用贝叶斯RL来激励。他们的方法在每个子集上学习单独的策略，然后在测试时聚合它们。而[159]在训练期间使用聚合策略进行数据收集，并学习策略外的策略收集。虽然这些方法相似，但它们之间没有直接的比较。
学习行为上类似的表征（理论动机较少）：
（1）Liu等人[160, CSSC]使用行为相似性（短期未来动作序列的相似性）来寻找对比学习目标的积极和消极对。这种辅助损失有助于在几个OpenAI Procgen游戏中进行泛化和提高样本效率。
（2）Mazure等人[161, CTRL]使用聚类方法和自监督学习来定义基于行为相似性的表征学习的辅助任务，在OpenAI Procgen上显示出改进的性能。
（3）Li等人[162, DARL]使用对抗性学习来强制不同领域的表示不可区分，仅在简单的训练环境下进行训练就提高了视觉上不同的测试环境下的性能。
（4）Fan和Li[163，DRIBO]使用对比学习与信息论目标相结合，学习仅包含任务相关信息的表达，同时预测未来。他们在DeepMind Control和OpenAI Procgen中的视觉多样性领域都表现出了改进的性能。

5.2.4 在线调整

处理训练和测试环境之间差异的另一种方法是在测试环境上在线适应。这种适应必须在一个episode内发生，必须足够快，以便在该集内提高性能。以往关注快速适应的Meta RL大多假设在测试CMDP中可以访问多个episode，但这不是zero-shot的问题。但也有一些可以实现zero-shot。
学习上下文编码器或推理网络，然后为策略或动态模型提供条件，以改进泛化：
（1）Yu等人[164，UP-OSI]使用在线系统识别来推断上下文，然后确定策略的条件。
（2）Yen Chen等人[165，EVF]使用动态模型学习端到端的上下文推理网络，并使用该网络来适应新对象。
（3）Kumar等人[166，RMA]通过在仿真中使用域随机化来训练智能体，并训练上下文推理模型来调节策略，解决sim-to-real的问题，类似于[164]，但使用l了学习的上下文推理。
（4）Ball等人[167，AugWM]采取了类似的想法，但在离线RL中使用。首先从离线数据训练世界模型。然后，在世界模型中执行特定形式的域随机化，然后使用硬编码更新规则来确定上下文，以调整策略，使其能够适应下游任务的zero-shot。
通常，这些方法使用域随机化方法，但目的是学习具有上下文条件的自适应策略或模型，而不是对所有可能上下文不变的策略。
一些方法使用不依赖于推断上下文的硬编码适应技术：
（1）Seo等人[168，TW-MCL]利用多头架构和多项选择学习，通过选择精度最高的模型，学习部署期间选择的动力学模型集合。
（2）Nagabandi等人[169，MOLe]解决了在线学习问题，保持了动态模型的不断更新和扩展集合，这些模型在使用非参数任务推理之间进行选择。
这两项工作选择的模型都具有模型预测控制，并且显示了对连续控制任务的改进。
（3）Hansen等人[102，PAD]使用自监督目标在测试过程中更新政策的内部表示。他们在视觉变化的DeepMind Control环境以及CRLMaze[170]上提高了标准基线的性能。
（4）[171, GrBAL, ReBAL]使用meta-RL方法（MAML[172]和RL2[173]）利用梯度或递归学习快速调整动力学模型，然后使用调整后的模型进行规划。在这种情况下，学习和硬编码的更新之间界限比较模糊：梯度更新本身是硬编码的，但初始化是学习的，在反复出现的情况下，更新是完全学习的。
几种方法在训练期间使用元学习学习一个适应函数：
（1）RL2[173, 174]是一种元RL方法，其中使用循环网络，其隐藏状态不会在episode
之间重置，可以在多个spisode的循环状态内学习和适应。由于优化方法和架构，该方法通常可以在一次训练中适应并表现良好。
（2）Zintgraf等人[103]基于贝叶斯RL引入了RL^2的扩展，称为VariBAD，其中递归网络学习产生预测未来奖励和先前转变的潜在表征，此潜在表征用于策略决策。
（3）Dorfman等人[175，BOReL]将VariBAD调整为可用于离线设置，在离线数据上改进zero-shot的探索。
（4）Zintgraf等人[176，HyperX]通过额外的探索奖励改进了VariBAD，以改进元探索。
（5）Ni等人[177]表明，这些简单的重复性方法以及调整的实施方式可以进一步改进，通常与更专业的算法对比，包括鲁棒RL和Meta RL。
（6）Mishra等人[178，SNAIL]将快速适应建模为seq-to-seq问题，并学习基于注意力的架构，该架构编码经验序列以调节策略。
尽管这些方法的主要重点是在更长的时间范围内进行适应，但它们在零距离概括任务上的表现也有所改善。

5.3 RL特定问题和改进

前两节的方法既适用于强化学习又适用于监督学习。但除了来自监督学习的泛化问题，RL还有其他问题抑制了泛化性能。本节讨论了强化学习特有问题的解决方法，还讨论了仅通过对训练集进行更有效的优化来提高泛化能力的方法，这种方法不会过拟合。

5.3.1 RL特定问题

RL中的优化除了监督学习问题外还有其他问题，如数据分布的非平稳性，以及需要探索的问题。
Igl等人[179，ITER]表明，RL训练的非平稳性会导致策略学习的特征不能很好地泛化。为解决该问题，他们以迭代方式将当前策略网络分离为具有重新初始化权重的新策略网络。这减少了非平稳性对新网络的影响，因为它正在接受更平稳分布的训练。
其他特定于RL的优化问题可能会与泛化产生积极或消极的影响，如果要超越从监督学习中复制和调整的技术，这一领域值得进一步关注。

5.3.2 不过拟合的更好优化

不过拟合情况下提高训练性能来提高泛化能力：
（1）Cobe等人[180]引入了阶段性政策梯度（PPG），该梯度调整了PPO的训练机制和架构，使得策略和价值函数使用完全独立的网络（而不仅仅是单独的头部）。这样价值网络可以进行更多的训练，策略网络也不会进入过拟合。最后进行策略网络训练时，再将价值网络的价值放入策略网络的计算中。
（2）Raileanu和Fergus[133]建立在PPG的基础上，并引入了分离优势Actor-Critic（DAAC）。他们将用GAE计算的优势函数提取到策略中，而不是价值函数，这进一步确保了策略不会过拟合。
它们都在OpenAI Procgen上表现出了改进的性能，证明了价值函数可以比策略更强大地优化。
（3）Singh和Zheng[181，稀疏DVE]调整了值函数的架构，以允许多模态输出，更紧密地模拟了仅给定视觉输入的真实值函数。这种新颖的架构结合了稀疏性损失，以确保值函数具有所需的属性，从而减少了值函数预测的方差，并提高了OpenAI Procgen中返回和导航效率的性能。
基于模型的RL（MBRL）
（1）Anand等人[182]将SOTA MBRL方法MuZero Reanalyse[183184]应用于OpenAI Procgen[36]，显示出比SOTA无模型方法在低得多的样本复杂度下的性能大大提高。作者还将MuZero应用于元世界中的元学习任务[74]，但没有取得太好的效果。

虽然上面描述的方法没有专门针对泛化，但它们提高了泛化性能。

5.4 讨论

备选分类
一种选择是根据方法是否改变了标准RL方法的体系结构、环境或目标来对方法进行分类。另一种方法是根据他们试图解决的基准，或是什么具体问题激励了他们的设计，对方法进行分类。具体分类如上图。
强泛化需要归纳偏差
存在涉及组合内插或外插的难以推广的问题。我们需要针对特定类型外推的更强的归纳偏好，因为不太可能有一种通用算法能够处理所有类型的外推。在进行研究处理外推推广时，研究人员应该清楚，他们引入了一种归纳偏见，以帮助以特定的方式进行外推，并严格分析这种归纳偏见是如何帮助的。
超越监督学习作为激励
非视觉形式的泛化（即动力学、状态和奖励）虽然同样重要，但研究较少。这些挑战将是RL特有的，并与RL特有的其他问题相互作用，例如探索与利用的权衡和基础数据分布的非平稳性。我们希望在非视觉概括领域看到更多的工作，特别是当存在其他难以解决的RL问题时。

六、讨论和未来工作

6.1 放宽zero-shot策略转移的推广

在许多重要的场景中，实现zero-shot的泛化会非常困难，需要放宽假设。如果要在更广泛的场景中有效地使用RL，需要放宽zero-shot的策略转移。
放宽zero-shot的方法有进入持续学习RL[25，CRL]设置：未来的RL系统可能会部署在环境不断变化的场景中，因此系统需要不断适应这些变化。在这一设置上取得进展需要基准，我们同意[25]，CRL没有足够好的基准。作者建议建立新的CRL基准，以共同在CRL和zero-shot泛化方面取得进展。
我们可以从人类如何泛化以及它们在泛化时传递的信息中获得灵感，从而超越传递单个策略。分层和多任务RL是相关领域，这些设置中的方法通常学习源任务的子组件、模块或技能（可能以无监督的方式），然后当转移到新任务时，可以使用这些子组件、组件或技能来提高学习速度和性能[186, 187]。
RL中几乎没有涉及的最后一个假设是，在训练和测试之间有一个固定的行动空间。最近，Jain等人[188]引入了一个新的问题设置和框架，围绕如何泛化RL中的新行为。他们介绍了几种测试方法的基准，这些方法可以推广到新的行动，以及一种基于学习行动表示和行动排名网络的方法，该网络在测试时充当策略。这方面的工作很少，我们在本次调查中也没有涉及，但它为广义研究提供了一个有趣的未来方向。

6.2 真实世界强化学习泛化

在Dulac Arnold等人[89]中，作者提出了真实世界RL的9个特征。在考虑泛化基准时，这些属性在两个方面是相关的。首先，将方法应用于现实时，我们必须解决这些问题。因此，如果通用化基准具有这些特性，这样我们就可以确保我们的通用化方法在真实环境中工作，这将是有益的。第二，几个特性与通用化和新基准的设计特别相关：（1）新样本的高成本，（2）离线数据的训练，（3）未指定或多目标奖励函数。我们将在下文中解释其中的每一项及其与一般化的关系。

6.2.1 上下文效率

解决（1），新样本的高成本也可能意味着新环境任务或上下文的高成本。这意味着我们需要上下文高效和样本高效的方法，因此我们需要基准和评估协议，在训练过程中只允许少数上下文。同样值得研究的是，在新的训练样本和新的上下文之间是否存在最佳权衡（针对每个样本和每个上下文的不同成本）。此外，可能有一些方法可以积极选择新的语境，以最大限度地提高泛化能力，同时尽量减少使用的新语境的数量，这是一种有效的主动学习形式。

6.2.2 Sim-to-Real 和离线强化学习

为了解决（2），出现了两种选择。第一种是依靠良好的模拟，然后解决模拟到真实的问题，第二种是直接解决离线RL问题[189]。这些方法可能或多或少相关或适用，具体取决于场景：例如，在许多机器人应用中，模拟器是可用的，而在医疗保健设置中，从离线数据学习可能是唯一可行的方法。Sim-to-Real 是一个领域泛化的问题。现有的sim-to-real工作确实在一定程度上解决了这一问题，但有一个完全模拟的基准来测试sim-to-real的方法将是有益的。因此建立离线强化学习的基准非常重要。
离线RL也是一个泛化问题：这里的一个关键问题是泛化到训练数据中看不到的状态-动作对，大多数当前的方法通过保守地避免这样的对来解决这一问题[190]。如果我们有方法可靠地推断出这类配对，我们可以提高离线RL性能。
除了泛化改进离线RL外，未来的RL部署场景可能需要解决离线RL和泛化的组合：离线训练策略，然后将其泛化到离线数据集中看不到的新上下文。当前的离线RL基准[191，192]没有以这种方式衡量普遍性，但我们认为它们应该使我们能够解决这一综合问题：例如，在OpenAI Procgen中对200个级别的离线数据进行培训，并对级别的完整分布进行评估。如果用当前方法解决这一问题是不可行的（因为离线RL和泛化都是难题），那么一个很好的折衷方案是首先处理离线在线设置，其中离线RL用于预训练，然后在线微调。在这方面已经做了一些工作[193]，但这并没有具体解决一般化问题。创建评估这些方法的基准，重点是缩短在线微调阶段的长度，并在微调后评估通用性，这将使我们走向真正的离线RL通用化，同时仍然可以使用当前方法。

6.2.3 奖励函数变化

未来的RL系统很可能是以目标或任务为条件的，因为训练一个泛化系统来完成几个相关任务比训练不同的系统来完成每个任务更有效。在这里，除了泛化新的动态和观察之外，经过训练的策略还需要泛化未知的目标或任务。
现实中奖励函数往往难以设计，一种方法是使用逆强化学习[194,195，IRL]从人类演示[196,198,199]中学习奖励函数。这里有两个泛化问题：确保在策略训练期间，学习的奖励函数泛化到不可见的上下文MDP，以及确保在测试时，训练的策略泛化到不见的上下文MDPs。第一个是IRL泛化问题，第二个是我们在这里考虑的标准泛化问题。解决这两个问题非常重要。
建立解决这些问题的基准和方法将是未来的宝贵工作。其中一些方向可以通过将新的评估协议与现有环境相结合来实现，以创建新的基准，而不是要求设计和创建全新的环境。

6.3 泛化性的多维评价

通常使用测试性能表示泛化性能，但通常不清楚基准测试排行榜上方法的排序在多大程度上代表了这些方法在现实问题场景中的假设排序。为了缓解这一问题，应报告多个不同测试上下文集的性能，这些测试上下文集评估不同类型的泛化。
很少有环境具有这种类型的评估所需的上下文集，因此建议未来泛化基准的设计能够实现此类评估。这需要构建具有可控上下文集和PCG组件的环境，并仔细考虑创建各种测试上下文集，确保它们与重要的泛化类型相匹配。分割测试上下文集的第一种方法可能是通过训练和测试之间的变化类型，以及是否需要插值或外推来概括该上下文集。

6.4 应对更强类型的变化

许多方法处理观察函数或状态空间变化。在这些环境中，泛化问题更容易解决。这两种类型的变化将出现在现实场景中，但其他类型的变化同样重要，往往更难解决。
动态变化：关于动力学的工作主要在两个环境：sim-to-real和多智能体环境。在sim-to-real中，模拟器和现实之间总是存在动态变化，许多工作都集中在如何在这种环境下训练策略。如机器人和连续控制方面倾向于解决机器人自身的控制方式或环境中的某些形式的动态变化。在多智能体环境中，如果其他智能体被视为环境的一部分，那么改变其他智能体会改变环境的动态[22]。这两者都发生在现实世界中，但不可避免地存在其他形式的动力学变化，而这些变化的研究较少。
奖励函数变化：这种变化更难解决，而且经常很难或不可能验证不变最优性原理[97]。进一步的工作是建立更多的基准，以便能够测试奖励函数的变化，特别是超越简单的目标规范样式。研究什么样的目标规范方法既适用于策略优化，又适用于现实场景。研究什么样的目标规范方法既适用于策略优化，又适用于现实场景很重要。

6.5 强化学习中的泛化理解

有几项工作探索RL中普遍化的潜在问题。该领域的工作包括[17]，其将观测过度拟合的概念描述为RL中普遍化差距的一个原因；[201]，分析了监督和RL中梯度干扰和泛化之间的关系，表明时间差方法往往具有较低的干扰训练，这与较差的泛化相关；[179]研究了RL中的瞬态非平稳性，并表明其对RL泛化产生了负面影响；[202]，研究了什么环境因素影响指令跟随任务中的概括，例如，发现以自我为中心的观点提高了概括，更丰富的观察空间也提高了概括。
这项研究仅仅触及了理解为什么特别是RL中的泛化是一个挑战的表面，而且还有很多未来的工作要做。这将使我们能够构建更好的方法，并理解RL代理在有限数量的训练环境下可以解决的任务多样性的任何理论限制。这类研究所需的精确经验实验正是通过严格控制所使用环境中的变化因素而实现的，这强化了第4.3节“通用化程序内容生成的缺点”中的结论，即纯PCG环境不适用于RL中的通用化研究。

6.6 泛化方法的未来工作

有许多特定于RL的因素对泛化性起负面作用。这些因素的例子包括用于训练的数据分布的非平稳性，bootstrapping，TD学习和探索等。
如第6.5节所述，有许多特定于RL的因素与一般化绩效相互作用，通常可能以负面的方式。这些因素的例子包括用于训练的数据分布的非平稳性；一般而言，引导和TD学习；以及探索的必要性。努力理解这些因素，然后构建解决这些因素的方法，如第5.3节“RL特定问题”所述，这是未来工作的一个富有成效的方向。努力理解这些因素，然后构建解决这些因素的方法，是未来工作的一个富有成效的方向。
我们通常有一个非结构化的上下文空间，或者包含许多无法解决的上下文MDP。能够从这些上下文空间进行更有效采样的方法可以缓解这一问题。第5.1节“环境生成”中介绍了几种方法，但在这一领域开展更多工作，应对具有不同类型变化的更具挑战性和现实性的环境，将是有益的。
虽然元RL上已经做了很多工作，但大多数工作都集中在few-shot上。如果环境中有需要在线调整的长期episode，则可以调整这一领域的工作以解决zero-shot策略转移。使政策能够在线学习和适应，并学习这种适应，可能会提高绩效。
有几种未被充分探索的方法贯穿了分类，大多数方法侧重于改变损失函数或算法方法。从归纳偏好入手的方法较少，值得注意的例子有[180、181、58、135、101]。可以在研究不同的架构上做更多的工作，或者从监督学习中获得灵感，或者创建RL特定的架构。这些架构可以通过使用辅助损失或正则化来解决难以编码归纳偏差的问题。第二个未充分探索的领域是基于模型的强化学习（MBRL），用于泛化。这里调查的大多数方法都是无模型的，值得注意的例外是[167，137，168，182]。学习一个世界模型，并将其与规划方法相结合，可以实现更强的概括形式，尤其是新的奖励功能。只要模型能很好地推广，它也能推广到新的状态和观测函数。能够适应动态变化的世界模型将更具挑战性，但Seo等人[168]给出了一个初步的例子。Anand等人[182]是第一个调查标准MBRL方法通用性的例子，我们期待在这方面看到更多的工作。