基于变化的内在动机的世界模型代理-CSDN博客

本文链接：https://blog.csdn.net/u013524655/article/details/146638648

稀疏奖励环境对强化学习提出了重大挑战，因为反馈较少。内在动机和迁移学习已被证明是解决这一问题的有希望的策略。Change Based Exploration Transfer（CBET）是一种结合了这两种方法的技术，适用于无模型算法，已在处理稀疏反馈方面显示出潜力，但其在现代算法中的有效性尚未得到充分研究。本文提供了CBET在DreamerV3等世界模型算法中的适应，并比较了DreamerV3和IMPALA代理在Crafter和Minigrid稀疏奖励环境中的表现，包括使用和不使用CBET的情况。我们的从零开始的结果表明，CBET可能提高DreamerV3在Crafter中的回报，但在Minigrid中，CBET进一步降低了回报，导致次优策略。同样地，我们的迁移学习实验表明，在Minigrid中，通过内在奖励预训练DreamerV3并不立即导致最大化外部奖励的策略。总体而言，我们的结果表明，CBET在更复杂的环境中（如Crafter）对DreamerV3有积极影响，但在像Minigrid这样的环境中可能会产生负面影响。在后一种情况下，DreamerV3中由CBET促进的行为可能与环境的任务目标不一致，从而导致回报减少和次优策略。

1 引言

在强化学习（RL）中，代理有效识别和优化产生奖励行为的能力至关重要。然而，传统RL算法通常在稀疏奖励环境中挣扎 (Sutton and Barto 2018) 。这些环境中缺乏频繁反馈使学习复杂化，导致探索阶段延长，收敛到最优解决方案的速度变慢。近年来，这一话题成为研究的重点，推动了越来越复杂的探索策略的发展。

应对稀疏奖励问题的一个有前途的方法是引入内在奖励，这是代理自身生成而非环境提供的奖励。内在奖励即使在没有外部奖励的情况下也能鼓励探索和学习。例如，基于计数的方法 (Bellemare et al. 2016; Tang et al. 2017) 根据代理访问状态的新颖性提供内在奖励，基于视图的方法 (Guo et al. 2022) 根据内部地图奖励代理访问未探索的环境区域，而基于好奇心的方法 (Pathak et al. 2017; Burda et al. 2018; Raileanu and Rocktäschel 2020) 奖励代理对环境和获得的奖励做出意外预测。

迁移学习为稀疏奖励问题提供了另一种互补的解决方案 (Taylor and Stone 2009; Zhu et al. 2023) 。通过重用之前获得的技能或知识，代理可以在新的但相关的设置中加速探索过程。这允许代理利用环境之间的共同点，最小化从零开始（tabula rasa）的详尽探索需求。

CBET（基于变化的探索迁移） (Parisi et al. 2021) 展示了一种将内在奖励和迁移学习相结合的新评估范式。在CBET中，预训练模型首先探索环境以识别有趣的交互，然后用于指导特定任务模型优化外部奖励。这种方法利用在先前环境中获得的知识更有效地引导探索，同时通过纳入内在奖励鼓励探索和学习。作者在各种稀疏奖励环境中展示了令人鼓舞的结果，突显了这种方法在RL中的潜力。

然而，CBET主要与IMPALA算法一起评估 (Espeholt et al. 2018) 。自其发布以来，RL领域取得了显著进展，产生了更复杂的算法。DreamerV3 (Hafner et al. 2023) 尤其引起了RL领域的关注，因为它是在Minecraft中首次从零开始获得钻石的算法，这是一个具有挑战性的稀疏奖励环境。该算法在多个环境中实现了最先进的性能，且所需的超参数调整最少。虽然CBET最初是为无模型算法设计的，但它在世界模型代理（如DreamerV3）中的应用尚待探索，这使得DreamerV3成为CBET评估的首选候选者。

在我们的工作中，我们提供了一种CBET框架的改编，以适应世界模型代理（如DreamerV3）在迁移学习中的应用。我们的实验比较了DreamerV3和IMPALA代理在从零开始和迁移学习设置中获得的回报。我们使用Crafter (Hafner 2021) 和Minigrid (Chevalier-Boisvert et al. 2023) 环境进行实验。我们的结果表明，CBET在Crafter环境中对DreamerV3有积极影响，但在Minigrid中则是有害的。此外，与IMPALA相比，DreamerV3在Minigrid中收敛到次优策略，突显了环境特性和模型架构对探索策略有效性的重要影响。为了便于结果的可重复性，我们在 https://github.com/Jazhyc/world-model-policy-transfer 上公开了我们的代码。

2 方法

本节概述了我们研究中使用的关键算法和方法。我们简要介绍了IMPALA和DreamerV3算法，随后是我们提出的CBET框架扩展，用于评估在稀疏奖励环境中的策略迁移。

2.1 IMPALA

IMPALA是一种分布式、无模型的强化学习算法，旨在高效地跨多个环境和学习者扩展 (Espeholt et al. 2018) 。它采用一个集中学习器，接收来自多个并行操作的代理（agent）的经验。该算法使用V-trace来解决代理执行的策略与集中学习器学习的策略之间的差异。这种方法允许IMPALA在复杂环境中实现高吞吐量和有效学习，尽管它对外部环境交互有较大依赖以学习稳健的策略。

2.2 DreamerV3

DreamerV3代表了一种最先进的基于模型的强化学习算法，它利用世界模型来模拟环境动态并预测未来结果 (Hafner et al. 2023) 。DreamerV3的核心是其世界模型，该模型被训练用来表示环境的潜在状态为部分可观测马尔可夫决策过程（POMDP） (Hafner et al. 2019) 。世界模型由递归状态空间模型（RSSM）组成，允许DreamerV3通过预测未来的潜在状态和奖励生成想象轨迹，从而使代理能够在不需要大量直接与环境交互的情况下学习策略。这种模拟能力使得DreamerV3相比IMPALA等无模型方法具有显著更高的样本效率。

2.3 CBET

原始CBET框架引入了一种针对无模型代理的策略迁移机制，利用内在奖励指导学习。这种内在奖励取决于代理访问状态的“有趣性”，同时考虑了前一状态的信息。形式上，内在奖励定义见方程 [eq:cbet] 。

在此方程中，\(r_i(s)\) 是状态 \(s\) 的内在奖励，\(n(s)\) 是状态 \(s\) 的访问次数，\(n(c)\) 是环境中发生改变的次数。改变定义为当前状态与前一状态之间的差异。

作者提出了两种CBET评估方法：从零开始评估，其中代理在任务环境中从头开始训练，同时使用内在和外部奖励；迁移评估，其中代理在探索环境中预先训练，仅使用内在奖励，然后在任务环境中微调，使用外部奖励。迁移评估旨在利用代理的先前知识加速任务环境中的学习。方程 [eq:cbet-transfer] 概述了CBET框架中使用的策略迁移机制。

在这里，\(s\) 和 \(a\) 分别指给定时间步的状态和动作。\(f_i\) 是在探索环境中仅使用内在奖励训练的策略网络。此网络在任务环境的微调阶段保持固定。\(f_e\) 是在任务环境中使用外部奖励训练的策略网络。在探索过程中，策略仅由 \(f_i\) 决定。任务环境中的策略 \(\pi_{TASK}(s,a)\) 是两个网络输出的组合，其中 \(\sigma\) 表示softmax运算符。

2.4 内在奖励

我们采用了Parisi等人（2021年）提出的基于有趣性的内在奖励机制，并使用伪计数估计状态的新颖性。类似于原始CBET论文，我们根据Tang等人（2017年）提出的方法对复杂环境中的相似状态进行哈希处理。

遵循CBET方法，我们还以概率 \(p \leq 1 - \gamma_i\) 在每个时间步随机重置计数，其中 \(\gamma_i\) 是内在奖励的折扣因子 (\(0 < \gamma_i < 1\))。这种重置防止内在奖励随着访问次数增加而消失。重要的是，这些重置在探索过程中随机发生，而不是仅在情节边界处发生。这可以防止初始状态始终比后期状态产生更高内在奖励的人工偏差。

2.5 迁移学习架构

我们采用两阶段迁移学习过程，如第 2.3 节所述。对于我们的IMPALA代理，我们直接复制原始CBET方法。然而，我们无法将相同方法应用于基于世界模型的DreamerV3，因为CBET是为无模型算法设计的（参见方程 [eq:cbet-transfer] ）。特别是，DreamerV3中的策略网络和世界模型紧密耦合。我们需要大幅修改DreamerV3架构，以便利用两个依赖于共享世界模型的不同策略网络。为了避免这一限制，我们提议使用两个不同的DreamerV3实例，然后平均它们的策略网络输出，如方程 [eq:world-transfer] 所示。这种方法允许我们在保持DreamerV3原始架构的同时仍然纳入CBET框架。

方程 [eq:world-transfer] 的主要修改是在策略迁移过程中引入了世界模型 \(w\)。世界模型用于从观察 \(x\) 中生成潜在状态 \(z\)，并传递给策略网络 \(f_i\) 和 \(f_e\) 以确定代理动作的概率。

该策略利用世界模型所学的环境动态来引导策略迁移过程。关键在于，我们的修改在高层次抽象层面上运行，允许其应用于多种基于模型的架构。我们预计这种修改将增强迁移学习过程，从而在任务环境中实现更优性能。

2.6 环境

为了测试我们的代理，我们在Minigrid (Chevalier-Boisvert et al. 2023) 和Crafter (Hafner 2021) 环境中评估其性能。这些环境以其稀疏奖励结构而闻名，非常适合评估我们的从零开始和迁移学习方法的有效性。

2.6.1 Minigrid Worlds

Minigrid套件提供了一系列程序生成的基于网格的环境，旨在评估RL代理的泛化能力 (Chevalier-Boisvert et al. 2023) 。在这些环境中运行的代理必须导航房间、收集钥匙并解锁门，以完成他们的目标。这些环境也是随机的，环境中的各种元素在情节之间随机化，例如墙壁和门的位置。Minigrid World环境对传统RL算法构成了重大挑战，因为只有在完成目标时才会提供奖励。此外，代理的视野有限，只能看到其前方的区域，因此需要强大的探索策略。

我们的主要任务环境是‘Unlock’。在这里，代理必须在一个双室布局中找到钥匙并解锁门。这个环境用于评估从零开始的代理和经过预训练后的迁移代理。探索环境是‘Doorkey’。这个环境也包含一扇门和一把钥匙在同一房间配置中。然而，目标不同，代理必须另外到达迷宫右下角的绿色方块。

2.6.2 Crafter

Crafter是一个程序生成的网格世界，挑战代理收集资源、制作物品并实现特定目标 (Hafner 2021) 。要在这一环境中取得成功，代理必须能够有效地处理多步骤任务，因为奖励是稀疏的，主要在完成成就时授予。总共有22项成就，难度从制作基本工具到获得钻石不等。该环境的特点是部分可观测性，代理的视野仅限于其中心位置的小网格。Crafter中的情节仅在代理的生命值达到零时结束，增加了代理决策过程的复杂性。

Crafter环境。代理以俯视图查看游戏，并在底部显示统计数据。

Crafter环境的一个重要优势是其标准化的一百万帧预算。这允许在研究论文之间进行直接性能比较，简化了不同代理的评估。在我们的实验中，我们在单一环境（固定种子）中预训练迁移学习代理，随后在随机种子环境中评估其性能。我们认为这种方法足以测试代理将其获得的知识推广到新配置的能力，提供其迁移学习能力的度量。

2.7 实验设置

我们在附录 11 中提供了从零开始和迁移学习方法的伪代码。我们的从零开始代理在Minigrid中有3百万步的计算预算，在Crafter中有1百万步。我们还对每种算法和环境组合进行了5次训练运行，总共产生了20个不同的实验。奖励在这些5次训练运行中取平均值进行评估。

相反，我们的迁移学习代理在探索环境中预训练一百万步，然后在任务环境中微调一百万步，涵盖Minigrid和Crafter。由于计算资源限制，我们无法对迁移学习实验进行多次运行。因此，我们只展示了每个算法和环境的单次运行结果。

我们对代理进行了最少的超参数调整，选择使用原始CBET和DreamerV3论文中提供的大多数默认设置。主要的是，我们需要调整从零开始代理的内在强度系数 \(\alpha\)，如方程 [eq:total-reward] 所示。该系数控制内在奖励 \(r_i\) 和常规外部奖励 \(r_e\) 之间的平衡，影响总奖励 \(r_t\) 和代理的探索行为。当系数为0时，普通RL算法与修改为包含CBET的算法之间将没有区别。附录详细说明了我们的超参数以及内在奖励缩放网格搜索的结果。

2.8 评估指标

对于Minigrid和Crafter环境，我们根据累积外部奖励（即回报）评估代理。该指标允许我们确定代理在环境中的整体表现，捕捉其完成任务和最大化奖励的能力。我们利用多个评估情节来随着时间推移评估代理的表现，因为它逐步在环境中训练。

3 结果

我们的结果可以在图 [fig:results] 中观察到，适用于从零开始和迁移学习实验。我们使用200,000步的滚动平均值平滑曲线，以更清晰地表示代理的学习进度。还包括标准误差以估计结果的方差。

在从零开始实验中，CBET在Crafter中对DreamerV3相比标准变体略有改进。然而，在Minigrid中观察到了相反的效果，CBET减少了代理的回报并大幅增加了其方差。有趣的是，尽管DreamerV3在Crafter中优于IMPALA，但该算法在Minigrid中似乎收敛到了次优策略，IMPALA在外部回报方面超过了DreamerV3。

在迁移学习实验中，DreamerV3在Minigrid的前200,000步中获得了接近零的回报，IMPALA在此期间表现优于该算法。然而，DreamerV3最终从这一性能差距中恢复，并在外部回报方面超过IMPALA。在Crafter中没有观察到相同的行为，DreamerV3在该环境中持续优于IMPALA。

4 讨论

将CBET应用于DreamerV3并非普遍有益，这在更复杂的Crafter环境中是有利的，但在Minigrid中是有害的。我们通过观察Minigrid中从零开始实验的回报减少以及迁移学习实验初期的接近零回报得出这一结论。后者表明，使用内在CBET奖励预训练DreamerV3并不能直接导致最大化外部奖励的策略。当我们结合这两个结果时，可以推断出DreamerV3中由CBET促进的行为与Minigrid环境的任务目标不一致，从而导致回报减少。这种行为与在Minigrid环境中使用CBET的IMPALA形成对比，后者是有益的。据我们所知，CBET仅与IMPALA一起评估过，我们的工作是首次经验性地确定其在不同RL算法中的有效性。因此，这一行为发现很重要，因为它表明CBET的影响不仅在不同环境中有所不同，还取决于模型架构的具体特征。

此外，DreamerV3似乎在Minigrid中收敛到了次优策略，IMPALA在外部回报方面超越了该算法。这一结果可能乍一看令人惊讶，因为DreamerV3在大多数环境中表现出最先进的性能。然而，甚至在原始DreamerV3论文中也表明，该模型在某些环境域中偶尔会获得较低的回报。我们假设IMPALA的大规模代理数量和异步性质使其能够收集更多样化的经验并更有效地探索环境。

尽管我们为世界模型算法（如DreamerV3）提供了CBET的改编版本，但这一修改存在一个重要警告。DreamerV3是一个大型RL算法，需要大量的VRAM进行训练。我们对CBET的改编将原本已显著的VRAM需求翻倍，因为我们创建了一个额外的世界模型和策略网络。未来的工作可以探索其他迁移学习技术，如分数迁移方法 (Sasso, Sabatelli, and Wiering 2021) ，该方法涉及选择性重置和重新训练世界模型的组件。这种方法可能潜在地减少DreamerV3迁移学习所需的计算资源，使其在更广泛的应用范围内更加实用。

此外，标准版和CBET版DreamerV3在Crafter实验中的表现均不如原始DreamerV3论文中报告的结果（报告的回报为11.7±1.9） (Hafner 2021) 。这一不足很可能是由于我们在实验中使用的较低规划比率造成的，这是由硬件限制强加的，从而降低了模型模拟环境的能力并影响了获得的回报。

使用内在奖励和CBET机制尽管有其好处，但也带来了重大挑战。调整内在强度系数是一个微妙的过程——太高，代理会过度强调探索；太低，则探索驱动不足。未来的研究可以专注于开发内在奖励系数调度器。类似于学习率调度器，代理开始时具有较高的内在动机以鼓励探索，并逐渐减少以促进利用。这种方法可能与ADAM优化器 (Kingma and Ba 2014) 结合，减少广泛的调整需求。进一步探索和解释内在奖励与迁移学习方法在更复杂环境中的相互作用也将是有价值的。

5 结论

最终，我们的实验揭示了DreamerV3性能和CBET影响的复杂图景。将该技术应用于DreamerV3产生的结果喜忧参半，在更复杂的Crafter环境中证明是有益的，但在Minigrid中则是有害的。CBET在不同环境中的有效性变化及其与DreamerV3的互动凸显了仔细选择和评估探索策略的关键重要性。此外，尽管DreamerV3在Crafter中表现出优越的性能，但在Minigrid中却意外地收敛到了次优策略，相比之下IMPALA在外部回报方面表现更优，这增加了IMPALA在少数环境中优于DreamerV3的案例。我们的发现强调了在稀疏奖励环境中优化性能时需要深思熟虑，因为这些技术的影响可能会因具体任务和模型特性而显著不同。

解决这些问题可以增强DreamerV3的鲁棒性，使其能够有效应对更广泛的环境。开发内在奖励强度调度器可以随着时间优化探索与利用的平衡，减少广泛参数调整的需求。此外，努力减少DreamerV3所需的计算资源，并修改算法以利用更多异步训练的代理，将使其在更广泛的应用范围内更加实用。通过这些改进，我们可以为更强大和多样化的强化学习模型铺平道路，这些模型能够有效应对现实世界的问题。

致谢

我们感谢格罗宁根大学信息技术中心的支持，感谢他们提供对Hábrók高性能计算集群的访问。

6 计算资源

主报告中提到的所有实验都在Crafter中进行了100万步，在Minigrid中进行了300万步。我们的DreamerV3模型在一个节点上运行，该节点配备了Intel Xeon Gold 6150 CPU和Nvidia V100 GPU，分别在Minigrid和Crafter中大约运行了12小时和48小时。我们的IMPALA模型使用了一个节点，配备了8个Intel Xeon Gold 6150 CPU和一个V100 GPU，分别在Crafter和Minigrid中大约运行了6小时和2小时。

7 模型和实验超参数

对于DreamerV3，我们使用了作者提供的实现。相反，我们使用了IMPALA的TorchBeast实现 (Küttler et al. 2019) 。我们主要使用了原始DreamerV3和IMPALA论文中描述的相同超参数 (Hafner et al. 2023; Espeholt et al. 2018) 。由于可用CPU的数量有限，IMPALA中与环境交互的代理数量减少到了8个。同样，我们不得不仔细选择DreamerV3中的规划比率，该比率决定了模型花费在模拟环境上的时间。我们使用了64的规划比率以及XL配置的2亿参数。

两种算法共享相同的评估策略。每10000步安排8个评估情节，并记录平均外部回报以获得主报告中呈现的结果。

8 Crafter中的等效训练时间比较

IMPALA与DreamerV3的等效训练时间比较。即使提供了5倍更多的训练时间，IMPALA仍未能超越DreamerV3。

在观察Minigrid环境中的结果后，我们好奇如果让IMPALA和DreamerV3在等效时间内训练，两者会如何比较。我们在Crafter中进行了一项实验，其中DreamerV3和IMPALA都增强了CBET，并给予15小时的时间预算。如图 5 所示，DreamerV3在外部奖励方面仍优于IMPALA。这些发现证明了DreamerV3的高样本效率。然而，需要注意的是，IMPALA可以高效地扩展以使用更多资源，并有可能在相同时间内超越DreamerV3。最佳算法选择将取决于可用的计算资源和期望的训练时间。

规划比率的影响

规划比率对DreamerV3在Crafter中使用和不使用CBET的性能影响。随着规划比率增加，两种模型之间的性能差异似乎没有显著变化。

我们希望确定规划比率与使用CBET之间的交互对DreamerV3性能的影响。我们假设，随着规划比率的增加，DreamerV3有和没有CBET之间的性能差距会减小。得出这一结论是因为更高的规划比率允许模型每步花费更多时间模拟和理解环境，可能使内在奖励变得多余。

为了测试我们的假设，我们在Crafter环境中使用DreamerV3进行网格搜索，分别测试了有和没有CBET的情况。仅使用单次训练运行进行每种配置。由于较高的规划比率会使训练时间大幅增加，我们为每种配置设置了24小时的时间限制以及1百万步的限制。该实验的结果如图 6 所示。我们观察到，随着规划比率的增加，回报之间的差距似乎有所减少。当规划比率为1024时，DreamerV3有和没有CBET之间的性能没有显著差异。然而，由于缺乏数据点和计算资源，我们避免从该实验中得出明确结论。我们严重低估了模型规划阶段所需的实际时间。结果，实验被迫终止，未能达到所需的步数。

10 内在奖励缩放

为了防止代理过于专注于探索而牺牲任务完成，我们需要在将内在奖励添加到外部奖励之前对其进行缩放。如果这个常数因子 \(\alpha\) 设置得太高，代理将忽视其任务。相反，如果 \(\alpha\) 设置得太低，内在奖励可能不足以驱动探索。我们进行了网格搜索，使用单次训练运行来找到候选者中在两种环境和算法中的最佳缩放因子。图 [fig:intrinsic-reward-scaling] 显示了这一过程的结果。我们在每个案例的训练期结束时选择了表现最佳的缩放因子。我们的发现总结在表 1 中。

11 算法伪代码

在本节中，我们提供了从零开始训练和迁移学习算法的伪代码，用于我们的实验。从零开始的算法用于在任务环境中从头开始训练代理，而迁移学习算法则用于在探索环境中预训练代理，然后在任务环境中微调它们。这些算法旨在适用于IMPALA和DreamerV3代理，并改编以纳入CBET框架。

代理、环境初始化 \(agent\)、环境、CBET计数获取当前状态 \(s\) 的动作 \(a\) 执行动作 \(a\)，观察下一个状态 \(s'\) 和 \(r_e\) 计算 \(c = s' - s\) 计算 \(r_i(s) = \frac{1}{n(s) + n(c)}\) 计算 \(r_t(s) = r_e(s) + \alpha \cdot r_i(s)\) 使用 \(s\)、\(a\)、\(s'\)、\(r_t\) 更新 \(agent\) 仅使用 \(r_e\) 评估 \(agent\)

代理、探索环境、任务环境每个代理都有一个策略网络 \(f\)。世界模型代理还具有一个世界模型 \(w\) 初始化 \(agent_i\)、探索环境、CBET计数 预训练阶段： 从当前状态 \(s\) 获取动作 \(a\) 执行 \(a\)，观察下一个状态 \(s'\) 计算 \(c = s' - s\) 计算 \(r_i(s) = \frac{1}{n(s) + n(c)}\) 使用 \(s\)、\(a\)、\(s'\)、\(r_i\) 更新 \(agent_i\) 微调阶段： 初始化 \(agent_{e}\) 和任务环境在任务环境中观察 \(s\) \(\pi_{TASK}(x,a) = \sigma(f_i(w_i(x), a) + f_e(w_e(x), a))\) \(\pi_{TASK}(s,a) = \sigma(f_i(s, a) + f_e(s, a))\) 执行来自 \(\pi_{TASK}\) 的动作 \(a\)，观察 \(s'\) 和 \(r_e\) 使用 \(s\)、\(a\)、\(s'\)、\(r_e\) 更新 \(agent_{e}\) 仅使用 \(r_e\) 评估代理

Bellemare, Marc G., Sriram Srinivasan, Georg Ostrovski, Tom Schaul, David Saxton, 和 Rémi Munos. 2016. “统一基于计数的探索和内在动机。” CoRR abs/1606.01868. http://arxiv.org/abs/1606.01868 .

Burda, Yuri, Harrison Edwards, Amos J. Storkey, 和 Oleg Klimov. 2018. “通过随机网络蒸馏进行探索。” ArXiv abs/1810.12894. https://api.semanticscholar.org/CorpusID:53115163 .

Chevalier-Boisvert, Maxime, Bolun Dai, Mark Towers, Rodrigo de Lazcano, Lucas Willems, Salem Lahlou, Suman Pal, Pablo Samuel Castro, 和 Jordan Terry. 2023. “Minigrid & Miniworld：模块化和可定制的强化学习环境，用于目标导向任务。” CoRR abs/2306.13831.

Espeholt, Lasse, Hubert Soyer, Remi Munos, Karen Simonyan, Vlad Mnih, Tom Ward, Yotam Doron, 等. 2018. “ IMPALA : 可扩展分布式深度- RL 的重要性加权演员-学习架构。” In Proceedings of the 35th International Conference on Machine Learning , edited by Jennifer Dy and Andreas Krause, 80:1407–16. Proceedings of Machine Learning Research. PMLR. https://proceedings.mlr.press/v80/espeholt18a.html .

Guo, Yijie, Yao Fu, Run Peng, 和 Honglak Lee. 2022. “使用基于视图的内在奖励学习探索策略。” In Deep Reinforcement Learning Workshop NeurIPS 2022 .

Hafner, Danijar. 2021. “基准测试代理能力的光谱。” arXiv Preprint arXiv:2109.06780 .

Hafner, Danijar, Timothy Lillicrap, Ian Fischer, Ruben Villegas, David Ha, Honglak Lee, 和 James Davidson. 2019. “从像素学习潜在动态以进行规划。” In International Conference on Machine Learning , 2555–65. PMLR.

Hafner, Danijar, Jurgis Pasukonis, Jimmy Ba, 和 Timothy Lillicrap. 2023. “通过世界模型掌握多样化领域。” https://arxiv.org/abs/2301.04104 .

Kingma, Diederik P., 和 Jimmy Ba. 2014. “Adam：一种随机优化方法。” CoRR abs/1412.6980.

Küttler, Heinrich, Nantas Nardelli, Thibaut Lavril, Marco Selvatici, Viswanath Sivakumar, Tim Rocktäschel, 和 Edward Grefenstette. 2019. “TorchBeast：一个PyTorch平台用于分布式RL。” https://arxiv.org/abs/1910.03552 .

Parisi, Simone, Victoria Dean, Deepak Pathak, 和 Abhinav Gupta. 2021. “有趣的对象，好奇的代理：学习任务无关的探索。” In Advances in Neural Information Processing Systems , edited by A. Beygelzimer, Y. Dauphin, P. Liang, and J. Wortman Vaughan.

Pathak, Deepak, Pulkit Agrawal, Alexei A Efros, 和 Trevor Darrell. 2017. “通过自我监督预测进行好奇心驱动的探索。” In International Conference on Machine Learning , 2778–87. PMLR.

Raileanu, Roberta, 和 Tim Rocktäschel. 2020. “RIDE：奖励影响驱动的探索用于程序生成环境。” In.

Sasso, Remo, Matthia Sabatelli, 和 Marco A. Wiering. 2021. “分数迁移学习用于基于模型的深度强化学习。” https://arxiv.org/abs/2108.06526 .

Sutton, Richard S., 和 Andrew G. Barto. 2018. 强化学习：导论 . Cambridge, MA, USA: A Bradford Book.

Tang, Haoran, Rein Houthooft, Davis Foote, Adam Stooke, OpenAI Xi Chen, Yan Duan, John Schulman, Filip DeTurck, 和 Pieter Abbeel. 2017. “# 探索：关于深度强化学习中基于计数的探索的研究。” Advances in Neural Information Processing Systems 30.

Taylor, Matthew E., 和 Peter Stone. 2009. “强化学习领域的迁移学习：综述。” J. Mach. Learn. Res. 10 (December): 1633–85.

Zhu, Zhuangdi, Kaixiang Lin, Anil K Jain, 和 Jiayu Zhou. 2023. “深度强化学习中的迁移学习：综述。” IEEE Trans Pattern Anal Mach Intell 45 (11): 13344–62.

原论文：https://arxiv.org/pdf/2503.2104