(DreamerV3)Mastering Diverse Domains through World Models

掌握多样化领域的世界模型

Danijar Hafner, Jurgis Pasukonis, Jimmy Ba, Timothy Lillicrap DeepMind 2 University of Toronto

摘要 

通用智能需要解决多个领域的任务。当前的强化学习算法具备这种潜力,但受限于为新任务调整所需的资源和知识。我们提出了DreamerV3,这是一种基于世界模型的通用且可扩展的算法,在固定超参数的情况下,超越了以往在广泛领域的表现。这些领域包括连续和离散动作、视觉和低维输入、2D和3D世界、不同的数据预算、奖励频率和奖励规模。我们观察到DreamerV3具有良好的扩展性,更大的模型直接转化为更高的数据效率和最终性能。DreamerV3开箱即用,是第一个在没有人类数据或课程的情况下,从零开始在Minecraft中收集钻石的算法,这是人工智能领域的一个长期挑战。我们的通用算法使强化学习广泛适用,并允许扩展到困难的决策问题。

引言

强化学习使计算机能够通过交互解决个别任务,例如在围棋和Dota游戏中超越人类。然而,将算法应用于新的应用领域,例如从棋盘游戏到视频游戏或机器人任务,需要专家知识和计算资源来调整算法。这种脆弱性也阻碍了向大型模型的扩展,这些模型的调整成本很高。不同的领域提出了独特的学习挑战,促使了专门算法的出现,例如用于连续控制、稀疏奖励、图像输入和空间环境的算法。创建一个能够开箱即用掌握新领域的通用算法,将克服专家知识的障碍,并使强化学习应用于广泛的实际应用。

我们提出DreamerV3,这是一种通用且可扩展的算法,能够以固定超参数掌握广泛领域的任务,超越专门算法。DreamerV3从经验中学习世界模型,用于丰富的感知和想象训练。该算法由3个神经网络组成:世界模型预测潜在动作的结果,批评家评估每种情况的价值,演员学习如何达到有价值的情况。我们通过信号幅度转换和强大的归一化技术,使跨领域的学习能够使用固定超参数。为了为解决新挑战提供实际指导,我们研究了DreamerV3的扩展行为。特别是,我们证明了增加DreamerV3的模型大小可以单调地提高其最终性能和数据效率。

流行的视频游戏Minecraft近年来已成为强化学习研究的焦点,国际比赛致力于学习在Minecraft中收集钻石。在没有人类数据的情况下解决这一挑战已被广泛认为是人工智能的一个里程碑,因为该程序生成的开放世界环境中的稀疏奖励、探索难度和长时间跨度。由于这些障碍,以前的方法求助于人类专家数据和手动制作的课程。DreamerV3是第一个从零开始在Minecraft中收集钻石的算法,解决了这一挑战。

我们总结本文的四个关键贡献如下:

• 我们提出DreamerV3,这是一种通用算法,能够以固定超参数学习掌握多样化领域,使强化学习易于应用。

• 我们证明了DreamerV3具有良好的扩展性,其中增加模型大小可以单调地提高最终性能和数据效率。

• 我们进行了广泛的评估,表明DreamerV3在多个领域的表现超越了更专门的算法,并发布了所有方法的训练曲线,以便于比较。

• 我们发现DreamerV3是第一个在没有人类数据或课程的情况下,从零开始在Minecraft中收集钻石的算法,解决了人工智能领域的一个长期挑战。

DreamerV3

DreamerV3算法由3个神经网络组成——世界模型、批评家和演员——这些网络从重放缓冲区中并行训练,不共享梯度,如图3所示。

为了在不同领域取得成功,这些组件需要适应不同的信号幅度,并稳健地平衡其目标中的各项。这一部分首先解释了一个简单的转换,用于预测未知数量级的量。然后介绍了世界模型、批评家和演员及其稳健的学习目标。特别是,我们发现结合KL平衡和自由位可以使世界模型无需调整即可学习,并且缩小大回报而不放大小回报允许固定的策略熵正则化。DreamerV2的差异详见附录C。

Symlog预测

重建输入和预测奖励和价值可能具有挑战性,因为它们的规模在不同领域可能会有所不同。使用平方损失预测大的目标可能导致发散,而绝对和Huber损失会停滞学习。另一方面,基于运行统计的归一化目标会引入非平稳性到优化过程中。我们建议使用symlog预测作为这一困境的简单解决方案。为此,输入为x且参数为θ的神经网络f(x, θ)学习预测其目标y的转换版本。要读取网络的预测ŷ,我们应用逆变换:

如图4所示,使用对数作为转换将无法预测取负值的目标。

因此,我们选择双对称对数家族中的一个函数,命名为symlog,作为转换,symexp函数作为其逆:

symlog函数压缩大正负值的幅度。与对数不同,它围绕原点对称,同时保留输入符号。这允许优化过程在需要时快速将网络预测移动到大值。Symlog在原点附近近似恒等函数,因此不会影响已经足够小的预测目标的学习。对于批评家学习,之前曾提出过更复杂的转换,但我们发现它在各个领域的平均表现较差

DreamerV3在解码器、奖励预测器和批评家中使用symlog预测。它还使用symlog函数压缩编码器的输入。尽管其简单,这种方法在多种环境中稳健且快速地学习。使用symlog预测,无需截断大奖励、通过奖励归一化引入非平稳性或在检测到新极端值时调整网络权重。

世界模型学习

世界模型通过自编码器学习感官输入的紧凑表示,并通过预测潜在动作的未来表示和奖励来实现规划。我们实现的世界模型为递归状态空间模型(RSSM),如图3所示。首先,编码器将感官输入xt映射到随机表示zt。然后,具有递归状态ht的序列模型根据过去的动作at−1预测这些表示的序列。ht和zt的连接形成模型状态,我们从中预测奖励rt和剧集继续标志ct ∈ {0, 1},并重建输入以确保表示的信息性:

图5展示了世界模型的长期视频预测。

编码器和解码器使用卷积神经网络(CNN)用于视觉输入,多层感知器(MLP)用于低维输入。动态、奖励和继续预测器也是MLP。表示从softmax分布向量中采样,我们在采样步骤中使用直通梯度。给定输入序列批次x1:T、动作a1:T、奖励r1:T和继续标志c1:T,世界模型参数φ通过端到端优化来最小化预测损失Lpred、动态损失Ldyn和表示损失Lrep,相应的损失权重βpred = 1,βdyn = 0.5,βrep = 0.1:

预测损失训练解码器和奖励预测器通过symlog损失,继续预测器通过二元分类损失。动态损失训练序列模型通过最小化预测器pφ(zt | ht)和下一个随机表示qφ(zt | ht, xt)之间的KL散度来预测下一个表示。表示损失 The representation loss 训练表示使其更具可预测性,如果动态无法预测它们的分布,允许我们使用因子化动态预测器进行快速采样,以训练演员批评家。这两个损失在停止梯度算子sg(·)和它们的损失规模方面有所不同。为了避免动态变得容易预测但信息不足的退化解,我们采用自由位free bits,通过将动态和表示损失的下限设置为1 nat ≈ 1.44比特来禁用它们,当它们已经很好地被最小化时,使世界模型专注于其预测损失:

以前的世界模型需要根据环境的视觉复杂性不同地缩放表示损失。复杂的3D环境包含不必要的细节以进行控制,因此促使更强的正则化器以简化表示并使其更具可预测性。在2D游戏中,背景通常是静态的,单个像素可能对任务至关重要,因此需要较弱的正则化器以感知细节。我们发现,结合自由位和表示损失的小规模可以解决这一困境,允许在不同领域使用固定超参数。此外,解码器的symlog预测统一了预测损失的梯度规模,进一步稳定了与表示损失的权衡。

我们偶尔在早期实验中观察到KL损失的尖峰,这与深度变分自编码器的报告一致。为了防止这种情况,我们将编码器和动态预测器的分类分布参数化为1%均匀和99%神经网络输出的混合,使它们不可能变得接近确定性,从而确保KL损失的合理规模。模型的更多细节和超参数总结在表W.1中。

演员批评家学习

演员和批评家神经网络纯粹从世界模型预测的抽象序列中学习行为。在与环境交互过程中,我们通过从演员网络中采样来选择动作,而不进行前瞻性规划。演员和批评家在模型状态st .= {ht, zt}上运行,因此受益于世界模型学习的马尔可夫表示。演员旨在最大化每个模型状态的预期回报Rt .= Σ∞ τ=0 γτrt+τ,其中折扣因子γ = 0.997。为了考虑超出预测范围T = 16的奖励,批评家学习预测在当前演员行为下每个状态的回报:

从重放缓冲区的表示开始,动态预测器和演员产生一系列想象的模型状态s1:T、动作a1:T、奖励r1:T和继续标志c1:T。为了估计考虑超出预测范围的奖励的回报,我们计算引导的λ-回报,该回报整合了预测的奖励和价值:

批评家学习

一个简单的批评家损失函数选择是通过对称误差或symlog预测来回归λ-回报。然而,批评家预测的是潜在广泛回报分布的期望值,这可能会减慢学习速度。我们选择了一种基于twohot编码目标的离散回归方法来学习批评家,这使得批评家能够维护和细化潜在回报的分布。为此,我们使用symlog函数转换回报,并将结果范围离散化为K = 255个等间距的桶bi。批评家网络输出一个softmax分布pψ(bi | st)在这些桶上,其输出形成在该分布下的预期桶值。重要的是,批评家可以预测任何连续值,因为其预期桶值可以落在桶之间:

为了训练批评家,我们对目标Rλ t应用symlog转换,然后将其twohot编码为批评家产生的softmax分布的软标签。Twohot编码是独热编码对连续值的推广。它产生一个长度为|B|的向量,其中所有元素都是0,除了最接近编码连续数字的两个条目,在位置k和k + 1。这两个条目总和为1,更多权重给予更接近编码数字的条目:

给定twohot编码的目标,其中sg(·)停止梯度,批评家最小化分类中软目标的分类交叉熵损失:

我们发现这种离散回归方法在具有稀疏奖励的环境中加速了学习,这可能是由于它们的双峰奖励和回报分布。我们对世界模型的奖励预测器使用相同的离散回归方法。

由于批评家回归的目标取决于其自身的预测,我们通过正则化批评家以预测其自身参数的指数移动平均的输出来稳定学习。这与强化学习中之前使用的目标网络类似,但允许我们使用当前的批评家网络计算回报。我们还注意到,随机初始化的奖励预测器和批评家网络在训练开始时可能导致大的预测奖励,从而延迟学习的开始。我们将奖励预测器和批评家的输出权重初始化为零,这有效地解决了这个问题,并加速了早期学习。

演员学习

演员网络学习选择动作以最大化回报,同时通过熵正则化确保足够的探索。然而,这种正则化的规模严重依赖于环境中奖励的规模和频率,这对以前的算法来说是一个挑战。理想情况下,我们希望策略在附近没有回报时快速探索,而不牺牲在密集回报下的最终性能。

为了稳定回报的规模,我们使用移动统计来标准化它们。对于具有密集奖励的任务,可以简单地将回报除以其标准差,类似于以前的工作。然而,当奖励稀疏时,回报的标准差通常很小,这种方法会放大接近零回报的噪声,导致过于确定性的策略,无法探索。因此,我们提出缩小大回报而不放大回报。我们通过将回报除以其规模S来实现这一点,只要它们超过最小阈值1。这个简单的改变是允许在密集和稀疏奖励中使用单一熵规模η = 3 · 10−4的关键:

我们遵循DreamerV2,通过随机反向传播估计第一项的梯度,用于连续动作,通过强化39用于离散动作。第二项的梯度以闭合形式计算。

在确定性环境中,我们发现通过其指数衰减的标准差来标准化回报就足够了。然而,对于高度随机化的环境,回报分布可能高度非高斯,并且包含由少数特别容易的剧集引起的大回报的异常值,导致过于确定性的策略,难以充分探索。为了在保持对这些异常值的鲁棒性的同时标准化回报,我们按其从5th到95th批量百分位数的范围缩放回报:

由于恒定的回报偏移不会影响目标,这相当于一个仿射变换,将这些百分位数分别映射到0和1。与优势标准化相比,缩小回报加速了在稀疏奖励下的探索,而不会牺牲在密集奖励下的最终性能,同时使用固定的熵规模。

结果

我们进行了广泛的实证研究,以评估DreamerV3在超过150个任务的多样领域中的通用性和可扩展性,所有这些都在固定超参数的情况下。我们设计的实验旨在将DreamerV3与文献中针对特定基准测试专门设计的最佳方法进行比较。此外,我们将DreamerV3应用于具有挑战性的视频游戏Minecraft。表A.1概述了领域。对于DreamerV3,我们直接报告随机训练策略的性能,避免使用确定性策略进行单独评估,简化了设置。所有DreamerV3智能体都在每个Nvidia V100 GPU上进行训练,使该算法在研究实验室中广泛可用。源代码和数值结果可在项目网站上找到:Redirecting…

基准测试 为了评估DreamerV3的通用性,我们进行了广泛的实证评估,涵盖了7个领域,包括连续和离散动作、视觉和低维输入、密集和稀疏奖励、不同的奖励规模、2D和3D世界和程序生成。图1总结了结果,附录中包含了训练曲线和分数表。DreamerV3在所有领域都取得了强大的性能,并在4个领域超越了所有以前的算法,同时还在所有基准测试中使用了固定超参数。

  • DMC本体控制 该基准包含18个具有低维输入和500K环境步骤预算的连续控制任务。任务范围从经典控制到运动再到机器人操作任务。DreamerV3在此基准上设定了新的最先进水平,超越了D4PG41、DMPO42和MPO43。

  • DMC视觉控制 该基准由20个连续控制任务组成,智能体仅接收高维图像作为输入,并且有1M环境步骤预算40,27。DreamerV3在此基准上建立了新的最先进水平,超越了需要数据增强的DrQ-v244和CURL45。

  • Atari 100k 该基准包括26个Atari游戏和仅400K环境步骤的预算,相当于100K步骤或4小时的实际时间46。EfficientZero47在此基准上保持最先进水平,通过结合在线树搜索、优先重放、超参数调度,并允许提前重置游戏;见表T.1概述。在没有这种复杂性的情况下,DreamerV3超越了其他以前的方法,如基于变换器的IRIS48、无模型的SPR49和SimPLe46。

  • Atari 200M 这个流行的基准包括55个具有简单图形的Atari视频游戏和200M环境步骤的预算50。我们使用了粘性动作设置51。DreamerV3超越了具有中位分数302%的DreamerV2,而DreamerV2为219%,以及专门为Atari基准设计的顶级无模型算法Rainbow52和IQN53。

  • BSuite 该基准包括23个环境,共有468种配置,旨在测试信用分配、对奖励规模和随机性的鲁棒性、记忆、泛化和探索54。DreamerV3在此基准上建立了新的最先进水平,超越了Bootstrap DQN55和具有相当训练量的Muesli56。与以前的算法相比,DreamerV3在信用分配类别中改进最多。

  • Crafter 这个程序生成的生存环境具有俯视图图形和离散动作,旨在评估智能体的广泛能力,包括广泛和深入的探索、长期推理和信用分配以及泛化57。DreamerV3在此基准上设定了新的最先进水平,超越了具有LSTM-SPCNN架构的PPO58、面向对象的OC-SA58、DreamerV227和Rainbow52。

  • DMLab 该领域包含需要空间和时间推理的3D环境59。在8个具有挑战性的任务中,DreamerV3在仅50M步骤中匹配并超越了可扩展的IMPALA智能体60的最终性能,而IMPALA需要10B环境步骤,相当于数据效率提高了13000%以上。我们注意到,IMPALA并不是为数据效率设计的,但它作为在没有数据约束的情况下可实现的性能基线具有重要价值。

扩展属性

解决开箱即用的具有挑战性任务不仅需要一个无需调整超参数即可成功的算法,还需要能够利用大型模型来解决困难任务的能力。为了研究DreamerV3的扩展属性,我们训练了5种模型大小,参数从8M到200M不等。如图6所示,我们发现了有利的扩展属性,其中增加模型大小直接转化为更高的最终性能和数据效率。增加梯度步数进一步减少了学习成功行为所需的交互次数。这些见解为将DreamerV3应用于新任务提供了实际指导,并展示了该算法的稳健性和可扩展性。

Minecraft收集钻石

在开放世界游戏Minecraft中收集钻石一直是人工智能领域的一个长期挑战。游戏中的每个剧集都设置在一个不同的程序生成的3D世界中,玩家需要通过寻找资源并使用它们来制作工具,发现12个里程碑的序列,这些里程碑具有稀疏奖励。环境在附录F中有详细描述。我们遵循之前的工作17,并增加了方块破坏的速度,因为随机策略不太可能连续多次采样相同动作来破坏方块,而不会通过采样不同动作来退步。

由于在这一复杂领域的训练时间较长,专门针对Minecraft调整算法将很困难。相反,我们开箱即用地应用DreamerV3,使用其默认超参数。如图1所示,DreamerV3是第一个在没有使用VPT16所需的人类数据的情况下,从零开始在Minecraft中收集钻石的算法。在40个种子中训练了100M环境步骤后,DreamerV3在50个剧集中收集了钻石。它在29M步骤后首次收集钻石,随着训练的进行,频率增加。40个种子中有24个至少收集了一颗钻石,最成功的智能体在6个剧集中收集了钻石。所有12个里程碑的成功率如图G.1所示。

以前的工作

开发通用算法一直是强化学习研究的长期目标。PPO19是最广泛使用的算法之一,需要相对较少的调整,但由于其策略性,使用了大量的经验。SAC38是连续控制的流行选择,利用经验重放来提高数据效率,但实际上需要调整,特别是其熵规模,并且在处理高维输入时遇到困难61。MuZero34使用价值预测模型进行规划,并以MCTS与UCB探索和优先重放等复杂算法组件为代价,实现了高性能。Gato62将一个大型模型拟合到多个任务的专家演示上,但仅适用于有专家数据的任务。相比之下,我们展示了DreamerV3在固定超参数下训练的多样化环境中表现出色。

Minecraft一直是最近强化学习研究的焦点。微软发布了流行的MineRL15游戏的免费版本用于研究目的。MineRL15提供了几个比赛环境,我们将其作为实验的基础。MineDojo64提供了具有稀疏奖励和语言描述的大型任务目录。年度MineRL比赛支持智能体通过多样化的人类数据集探索和学习有意义的技能15。VPT16通过行为克隆训练智能体,使用承包商收集的专家数据,并使用强化学习进行微调,结果钻石的成功率为2.5%,使用了720个V100 GPU进行了9天的训练。相比之下,DreamerV3在17个GPU天内从稀疏奖励中学习收集钻石,而无需人类数据。

结论

本文介绍了DreamerV3,这是一种通用且可扩展的强化学习算法,能够以固定超参数掌握广泛领域的任务。为此,我们系统地解决了所有组件中变化的信号幅度和不稳定性问题。DreamerV3在7个基准测试中取得成功,并在连续控制、BSuite和Crafter上建立了新的最先进水平。此外,DreamerV3成功学习了需要空间和时间推理的3D环境,在DMLab任务中使用比IMPALA少130倍的交互,并且是第一个从稀疏奖励中端到端收集Minecraft钻石的算法。最后,我们证明了DreamerV3的最终性能和数据效率随着模型大小的增加而单调提高。

局限性

我们的工作包括DreamerV3在Minecraft中有时在100M环境步骤内收集钻石,而不是在每个剧集中收集。尽管一些程序生成的世界比其他世界更难,但人类专家通常可以在所有情况下收集钻石。此外,我们增加了方块破坏的速度,以允许使用随机策略学习Minecraft,这可以通过以前工作中的归纳偏置来解决。为了展示DreamerV3的扩展属性可以外推到多大程度,需要更大规模的未来实现。在这项工作中,我们为所有任务训练了独立的智能体。世界模型具有在任务之间进行大量迁移的潜力。因此,我们认为训练更大的模型以解决跨重叠领域的多个任务是一个有前景的未来研究方向

C 概要差异

DreamerV3基于DreamerV2算法进行了改进。本节描述了我们应用的主要更改,以实现使用固定超参数掌握广泛领域,并在未见过的领域实现稳健学习。

  • Symlog预测:我们对世界模型的输入进行symlog编码,并使用带平方误差的symlog预测来重建输入。奖励预测器和批评家使用twohot symlog预测,这是一种简单的分布式强化学习形式。

  • 世界模型正则化:我们尝试了多种方法来消除调整KL正则化的需要,包括设定一个固定的KL值。一个简单而有效的解决方案是结合在DreamerV2中引入的KL平衡和在原始Dreamer算法中使用的自由位。GECO在这种情况下对我们没有帮助,因为“良好”的重建误差在不同领域差异很大。

  • 策略正则化:使用固定熵正则化器来处理演员在密集和稀疏奖励下的问题。将大的回报范围缩小到[0, 1]区间,而不放大接近零的回报,解决了这一挑战。使用百分位数来忽略回报范围中的异常值进一步提供了帮助,特别是在随机环境中。我们没有发现通过将策略正则化为其自身的EMA或CMPO正则化器来获得改进。

  • 统一混合分类:我们将世界模型表示和动态的分类分布以及演员网络参数化为1%均匀和99%神经网络输出的混合,以确保每个类别都有最小的概率质量,从而保持对数概率和KL散度的良好行为。

  • 架构:我们使用了类似的网络架构,但采用了层归一化和SiLU作为激活函数。为了获得更好的框架支持,我们使用了same-padded convolutions 的卷积,步长为2,核大小为3,而不是使用更大的核和填充为valid的卷积。DreamerV3的稳健性使我们能够使用大型网络,这有助于其性能。

  • 批评家EMA正则化:我们使用快速批评家网络计算λ-return,并将批评家的输出正则化为其自身权重的EMA,而不是使用慢速批评家来计算回报。然而,这两种方法在实践中表现相似。

  • 回放缓冲区:DreamerV2使用的回放缓冲区仅重放已完成剧集的时间步。为了缩短反馈循环,DreamerV3从所有插入的子序列中均匀采样,无论剧集边界如何。

  • 超参数:DreamerV3的超参数被调整为同时在视觉控制套件和Atari 200M上表现良好。我们通过在新领域上训练而不进行进一步调整来验证它们的通用性,包括Crafter、BSuite和Minecraft。

目标正则化

我们还尝试了世界模型和策略目标的约束优化,其中我们设定了一个正则化器应平均在状态上达到的目标值。我们发现,将这种方法与允许的正则化器规模限制相结合,对世界模型表现良好,但以增加复杂性为代价。对于演员,选择40%的目标随机性——其中0%对应最确定性策略,100%对应最随机策略——在领域中稳健学习,但阻止策略在需要速度或精度的任务中收敛到最高分,并在稀疏奖励下减慢探索。DreamerV3的解决方案没有这些内在的约束优化公式的问题。

E 消融解释

  • 世界模型消融

    • NoFreeBits:使用KL平衡但不使用自由位,相当于将公式4中的常数从1改为0。这是DreamerV2中使用的目标。

    • NoKLBalance:使用自由位但不使用KL平衡,通过将βdyn和βrep设置为0.5来实现,这恢复了β-VAE目标。我们发现这个值比附近值表现更好。

    • NoObsSymlog:此消融移除了对世界模型输入的symlog编码,并将解码器中的symlog均方误差损失更改为简单的均方误差损失。由于symlog编码仅用于向量观测,因此此消融等同于DreamerV3在纯基于图像的环境中。

    • TargetKL:通过在重放缓冲区中将KL值平均在目标值3.5 nat周围,通过增加或减少KL尺度(βpred和βrep)来实现。类似于PPO中的KL惩罚变体。KL尺度限制在[10−3, 1.0]范围内以确保数值稳定。

  • 批评家消融

    • RewardNorm:不是通过归一化奖励,而是通过除以运行标准差并截断超过10的幅度来归一化奖励。

    • ContRegression:使用均方误差symlog预测来预测奖励和价值头。

    • SqrtTransform:使用R2D2中引入的不对称平方根转换,并在MuZero中使用two-hot离散回归。

    • SlowTarget:不是使用快速批评家来计算回报并训练其向慢速批评家靠拢,而是使用慢速批评家来计算回报。

  • 演员消融

    • NoDenomMax:直接基于5到95百分位之间的范围归一化回报,而不是取分母中的最大值1和百分位范围。这样,不仅大回报被缩小,小回报也被放大。

    • AdvantageStd:如PPO和Muesli中常用的优势归一化。然而,在不调整熵正则化器的情况下缩放优势会改变回报和熵之间的权衡,这取决于优势的规模,而优势的规模又取决于批评家当前对回报的预测有多准确。

    • ReturnStd:不是基于5到95百分位之间的范围归一化回报,而是基于其标准差进行归一化。当奖励很大但稀疏时,标准差很小,进一步放大了少数大回报。

    • TargetEntropy:通过增加或减少熵尺度η的10%来实现,当批次平均随机性低于或超过目标值周围10%的容差时。熵尺度限制在[10−3, 3·10−2]范围内。策略随机性是策略熵映射到从0%(动作分布参数化允许的最确定性)到100%(最均匀)的范围。乘法而不是加法地调整正则化强度允许尺度快速跨越数量级,在实践中超越了SAC的目标熵方法。此外,针对随机性值而不是熵值允许跨具有离散和连续动作的领域的超参数共享。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值