数据增强:具有自预测表示的数据高效强化学习

题目:Data-Efficient Reinforcement Learning with Self-Predictive Representations

出处:International Conference on Learning Representations (ICLR,2021),深度学习顶级会议。

摘要:虽然深度强化学习擅长解决通过与环境几乎无限的交互来收集大量数据的任务,但从有限的交互中学习仍然是一个关键挑战。我们假设,如果我们基于视觉输入的结构和与环境的顺序交互,通过自我监督的目标来增强奖励最大化,那么agent可以更有效地学习。我们的方法,自预测表示(SPR),训练一个智能体预测自己的潜在状态表示未来的多个步骤。我们使用编码器计算未来状态的目标表示,编码器是智能体参数的指数移动平均值,我们使用学习的过渡模型进行预测。就其本身而言,这种未来的预测目标优于先前的方法,可以从像素中获得采样效率高的深度RL。我们通过在未来的预测损失中使用数据增强来进一步提高性能,这迫使智能体的表示在观察的多个视图中保持一致。我们的完全自我监督目标结合了未来预测和数据增强,在限定为10万个环境交互步骤的环境中,Atari的人类标准化得分中值为0.415,比之前的最先进水平相对提高了55%。值得注意的是,即使在这个有限的数据体系中,SPR在26场比赛中有7场超过了专家的人类得分。

1,引言

深度强化学习(Deep RL,François Lavet et al.,2018)已被证明是一种不可或缺的工具,用于培训成功的智能体人解决困难的顺序决策问题(Bellemare et al.,2013;Tassa et al.,2018)。在《星际争霸》(Vinyals et al.,2019)和DoTA2(OpenAI et al.,2019)等高度复杂的战略游戏中,deep RL的成功尤其值得一提,在这些游戏中,deep RL智能体现在在某些场景中超过了专家级的人类表现。

深度RL涉及使用大量数据(Sutton,2019)基于大型神经网络的训练智能体,这一趋势在基于模型(Schrittwieser等人,2020)和无模型(Badia等人,2020)的学习中都很明显。这种最先进的智能体的样本复杂度通常非常高:MuZero(Schrittwieser等人,2020年)和Agent-57(Badia等人,2020年)在每款Atari游戏中使用10-50年的经验,而OpenAI Five(OpenAI等人,2019年)使用45000年的经验来实现其卓越的性能。这显然是不切实际的:与视频游戏等易于模拟的环境不同,为许多现实世界任务收集交互数据成本高昂,因此提高数据效率是在这些环境中成功使用深度RL的先决条件(Dulac Arnold et al.,2019)。

同时,在学习新的视觉和语言任务时,新的自我监督表征学习方法显著提高了数据效率,尤其是在低数据状态或半监督学习中(谢晓峰等人,2019年;赫纳夫等人,2019年;陈等人,2020b)。自我监督方法通过利用动态生成的任务几乎无限的训练信号来提高数据效率,基于从数据的自然结构中提取的“视图”(例如,图像块、数据增强或时间接近,见Doersch等人,2015年;Oord等人,2018年;Hjelm等人,2019年;Tian等人,2019年;Bachman等人,2019年;He等人,2020年;Chen等人,2020a)。

在半监督和自我监督学习成功的推动下(Tarvainen&Valpola,2017;Xie等人,2019;Grill等人,2020),我们通过强制表示在数据增加时具有时间预测性和一致性,为RL训练更好的状态表示。具体来说,我们通过添加一个动态模型来扩展一个强大的无模型智能体,该模型预测智能体本身的参数指数移动平均值所提供的未来潜在表示。我们还向未来的预测任务中添加了数据增强,这将加强每个观测的不同视图之间的一致性。与某些方法(Kaiser等人,2019;Hafner等人,2019)相反,我们的动力学模型完全在潜在空间中运行,不依赖于重建原始状态。

Atari 100k基准(Kaiser et al.,2019)中26场比赛中不同方法的人类标准化得分中值和平均值,SPR的平均值超过10个随机种子,大多数其他方法的平均值为5个种子,但CURL使用20个。每个方法只允许访问10万个环境步骤或每个游戏40万帧。(*)表示该方法使用数据扩充。SPR在人类标准化得分的平均值和中位数上都取得了最先进的结果。请注意,即使没有数据扩充,SPR在这两个指标上仍然优于所有之前的方法。

我们在Atari 100k基准(Kaiser等人,2019)中的26个游戏上评估了我们的方法,我们称之为自预测表示(SPR),其中每个游戏只允许智能体执行100k个环境交互步骤(生成400k帧输入),这大致相当于两小时的实时体验。值得注意的是,Mnih等人(2015年)和Van Hasselt等人(2016年)的人类专家获得了相同的时间来学习这些游戏,因此10万步的预算允许在数据效率方面进行合理的比较。

在我们的实验中,我们用SPR损失对数据高效Rainbow(DER)(van Hasselt et al.,2019)的改进版本进行了扩充,并评估了有无数据扩充的SPR版本。我们发现每个版本都优于受控基线。当与数据增强相结合时,SPR的中位数得分为0.415,这是该基准的最先进结果,显著优于以前的方法。值得注意的是,在26场比赛中,SPR在7场比赛中的表现也优于人类专家的得分,同时使用的游戏体验量大致相同。

2,方法

我们在标准马尔可夫决策过程(MDP)设置中考虑强化学习(RL),其中一个主体与其环境在事件中进行交互,每个事件由观察、行动和奖励序列组成。我们使用 s_ta_t 和 r_t 来表示状态、智能体采取的行动以及在时间步 t 收到的奖励。我们试图训练一个智能体,使其在每一episode 中的预期累积奖励最大化。为此,我们结合了一个强大的无模型RL算法Rainbow(Hessel 等, 2018),使用自预测表示作为辅助损失,以提高样本效率。现在我们详细描述我们的总体方法。

完整SPR方法的说明。在线编码器的表示用于强化学习任务,并通过转换模型预测目标编码器的未来表示。目标编码器和投影头被定义为其在线对应物的指数移动平均值,不通过梯度下降进行更新。为简洁起见,我们仅说明了未来预测的第K步,但在实践中,我们计算了从 1到 K 的所有步骤的损失。注:本文的实现包括Q-Learning 头中的 g_o

2.1,深度Q网络

我们关注Atari学习环境(Bellemare等人,2013),这是一个具有挑战性的环境,在这个环境中,智能体在接收纯粹基于像素的视觉观察的同时,采取离散的行动。解决Atari问题的一个突出方法是深度Q网络(Mnih等人,2015),它训练神经网络 Q_\theta 来近似智能体当前的 Q函数(策略评估),同时贪婪地更新智能体关于该Q函数的策略(策略改进)。这涉及到最小化Q_\theta预测值与 Q_{\xi } 估计的目标值之间的误差,Q_{\xi }是网络的早期版本:  

L_{\theta}^{DQN}=\left ( Q_{\theta}\left ( s_t,a_t \right )-\left ( r_t+\gamma \ \underset{a}{max}\ Q_{\xi}\left ( s_{t+1},a \right ) \right ) \right )^2

与原始的DQN相比,已经有了各种改进:Distributiona RL(Bellemare等人,2017)模型未来奖励的完整分配,而不仅仅是平均值,Dueling DQN(Wang等人,2016)将一个状态的价值与在该状态下采取给定行动的优势分离,Double DQN(Van Hasselt等人,2016年)修改了Q学习更新,以避免因max操作等原因而高估。Rainbow(Hessel等人,2018年)将这些改进整合到一个单一的组合算法中,并已适应在数据有限的情况下运行良好(van Hasselt等人,2019年)。

2.2,自我预测表示

对于我们的辅助损失,我们从直觉开始,即鼓励状态表示预测给定未来动作的未来状态,应该提高RL算法的数据效率。设(s_{t:t+K},a_{t:t+K})表示从重放缓冲区采样的 K +1 个先前经历的状态和动作序列,其中 K 是我们想要预测的未来的最大步数。我们的方法有以下四个主要部分:

在线目标网络:我们使用一个在线编码器 f_o 将观察到的状态 s_t 转换成表示 z_t\overset{\bigtriangleup }{= }f_o(s_t)。我们在一个目标中使用这些表示,以鼓励它们预测未来的观测,在给定一系列 K 动作的情况下,达到某个固定的时间偏移量K表现。当使用数据增强时,我们独立扩充每个观测值。我们没有预测在线编码器产生的表示,而是遵循之前的工作(Tarvainen&Valpola,2017;Grill等人,2020),使用目标编码器 f_m 计算未来状态的目标表示,其参数是在线编码器参数的指数移动平均数(EMA)。把 f_o 的参数表示为 \theta_o,把 f_m 的参数表示为 \theta_m,把EMA系数表示为 \tau\in [0,1)\theta_m 的更新规则是: 

\theta_m\leftarrow \tau\theta_m+(1-\tau)\theta_0

目标编码器不会通过梯度下降进行更新。特例 \tau = 0,\theta_m=\theta_o 值得注意,因为当数据增强已经提供正则化时,它表现良好。

过渡模型:对于预测目标,我们使用动作条件转换模型 h 生成未来状态表 \hat{z}_{t+1:t+K} 的 K 个预测序列 \tilde{z}_{t+1:t+K}。我们从 \hat{z}_t\overset{\bigtriangleup }{=}z_t\overset{\bigtriangleup }{=}f_o(s_t) 开始迭代计算 \hat{z}_{t+1:t+K}\overset{\bigtriangleup }{=}h(\hat{z}_{t+k},a_{t+k})。我们通过将目标编码器 f_m 应用于观测到的未来状态 s_{t+1:t+K}:\tilde{z}_{t+k}\overset{\bigtriangleup }{=}f_m(s_{t+k}) 来计算 \tilde{z}_{t+1:t+K}。过渡模型和预测损失在潜在空间中运行,因此避免了基于像素的重建目标。我们在第2.3节中描述了 h 的体系结构。

投影头:我们使用在线和目标投影头 g_og_m(Chen等人,2020a)将在线和目标表示投影到较小的潜在空间,并将额外的预测头 q(Grill等人,2020)应用于在线投影以预测目标投影:

\hat{y}_{t+k}\overset{\triangle }{=}q\left ( g_o\left ( \hat{z}_{t+k} \right ) \right ),\forall \hat{z}_{t+k}\in \hat{z}_{t+1:t+K}

\tilde{y}_{t+k}\overset{\triangle }{=}g_m\left ( \tilde{z}_{t+k} \right ),\forall \tilde{z}_{t+k}\in \tilde{z}_{t+1:t+K}

目标投影头参数由在线投影头参数的EMA给出,使用与在线编码器和目标编码器相同的更新。

预测损失:我们通过在时间段 t+k( 1\leqslant k\leqslant K )上对预测和观测之间的余弦相似性来计算SPR的未来预测损失。

L_{\theta}^{SPR}\left ( s_{t:t+K},a_{t:t+K} \right )=-\sum_{k=1}^K\left ( \frac{\tilde{y}_{t+k}}{||\tilde{y}_{t+k}||_2} \right )^T\left ( \frac{\hat{y}_{t+k}}{||\hat{y}_{t+k}||_2} \right )

其中 \tilde{y}_{t+k}\hat{y}_{t+k} 根据我们刚才描述的 (s_{t:t+K},a_{t:t+K}) 计算。

我们称为自预测表示法(SPR),遵循目标的预测性质,并使用类似于(Tarvainen&Valpola,2017;He等人,2020)的指数移动平均目标网络。在训练期间,我们将SPR损失与Rainbow的Q-Learning损失结合起来。SPR损失影响 f_o,g_o,q,h;Q-Learning 损失影响 f_o 和Q-Learning头,后者包含 Rainbow 特有的附加层。将Rainbow的Q-Learning损失表示为 L_{\theta}^{RL},全部优化目标是:L_{\theta}^{total}=L_{\theta}^{RL}+\lambda L_{\theta}^{SPR}

与强化学习中提出的一些其他表征学习方法不同(Srinivas等人,2020年),SPR可以在有或没有数据增强的情况下使用,包括在数据增强不可用或适得其反的情况下。此外,与对比表征学习的相关工作相比,SPR不使用负样本,这可能需要仔细设计对比任务、大批量(Chen等人,2020a),或使用缓冲区来模拟大批量(He等人,2020)

2.3,过渡模型体系结构

对于过渡模型 h,我们将卷积网络直接应用于卷积编码器 f_o 的64×7×7空间输出。该网络由两个64通道卷积层组成,带有3×3个滤波器,在第一次卷积后进行批量归一化(Ioffe&Szegedy,2015),在每次卷积后进行ReLU非线性。我们在第一个卷积层中添加一个表示输入中每个位置所采取行动的热向量,类似于Schrittwieser等人(2020)。我们使用K=5的最大预测深度,并且我们截断了事件边界处SPR损失的计算,以避免将环境重置动力学编码到模型中。

2.4,数据增强

当使用增强时,我们使用与Yarats等人(2021年)的DrQ相同的图像增强集,包括小的随机位移和颜色抖动。我们对卷积编码器和转换模型输出的[0,1]处的激活进行标准化,如Schrittwieser等人(2020年)所述。我们使用Kornia(Riba et al.,2020)进行高效的基于GPU的数据增强。

在不使用增强的情况下,我们发现当在线编码器和目标编码器的每一层应用概率为0.5的退出(Srivastava et al.,2014)时,SPR的性能更好。这与Laine&Aila(2017)的观点一致;Tarvainen和Valpola(2017年),他们发现,如Bachman等人(2014年)提出的,在不使用图像特定增强的情况下,在网络内部添加噪声非常重要。

2.5,实施细节

对于我们的Atari实验,我们主要遵循van Hasselt等人(2019)的DQN超参数,但有四个例外。我们遵循DrQ(Yarats等人,2021年):使用Mnih等人(2015年)的三层卷积编码器,使用10步返回而不是20步返回进行Q-Learning,并且在使用增强时不使用单独的DQN目标网络。我们还为每个环境步骤执行两个梯度步骤,而不是一个。我们在表5中显示了这种配置的结果(有和没有增加),并确认这些更改本身并不对我们的性能负责。我们重复使用DQN MLP头的第一层作为SPR投影头。当使用 Dueling DQN(Wang等人,2016)时,g_o会将价值和优势头的第一层输出连接起来。当这些层有噪声时(Fortunato等人,2018),g_o 不使用噪声参数。最后,我们将预测器 q 参数化为一个线性层。我们在禁用增强功能时使用 \tau = 0.99,在启用时使用 \tau = 0。 对于 L_{\theta}^{total}=L_{\theta}^{RL}+\lambda L_{\theta}^{SPR} ,使用 \lambda = 2 。

超参数在游戏子集上进行了调整(继Mnih等人,2015年;Machado等人,2018年)。我们在表3中列出了完整的超参数。

我们的实现使用了rlpyt(Stooke&Abbeel,2019)和Pytork(Paszke等人,2019)。我们发现SPR适度增加了培训所需的时间,我们在附录D中详细讨论了这一点。

3,相关工作

3.1,高效数据RL

许多工作试图提高深度强化学习的采样效率。SiMPLe(Kaiser等人,2019年)学习了Atari的像素级转换模型,以生成模拟训练数据,在100k帧设置下的几场比赛中取得了优异的成绩,但代价是需要几周的训练。然而,van Hasselt等人(2019年)和Kielak(2020年)介绍了Rainbow(Hessel等人,2018年)的变体,这些变体针对样本效率、数据效率高的Rainbow(DER)和OTRainbow进行了调整,在计算量少得多的情况下实现了相当或更高的性能。

在连续控制的背景下,有几项工作建议利用经过重建损失训练的潜在空间模型来提高样本效率(Hafner et al.,2019;Lee et al.,2019;Hafner et al.,2020)。最近,DrQ(Yarats等人,2021年)和RAD(Laskin等人,2020年)发现,应用适度的图像增强可以显著提高强化学习中的样本效率,产生比以前基于模型的方法更好的结果。研究还发现,数据增强可以提高强化学习方法在多任务和转移环境中的通用性(Combes et al.,2018;Laskin et al.,2020)。我们表明,数据增强可以更有效地用于强化学习,方法是在预测未来潜在状态的同时,强制表示在观测的不同增强视图之间保持一致。

3.2,RL中的表征学习

表征学习在RL中有着悠久的使用历史——见Lesort等人(2018年)。例如,CURL(Srinivas et al.,2020)提出了一种图像增强和对比丢失相结合的方法来对RL进行表征学习。然而,RAD的后续研究结果(Laskin等人,2020年)表明,CURL 的大部分好处来自图像增强,而不是对比损失。

CPC(Oord et al.,2018)、CPC | Action(Guo et al.,2018)、ST-DIM(Anand et al.,2019)和DRIML(Mazoure et al.,2020)建议优化强化学习环境中的各种时间对比损失。我们将这种时间对比损失与第5节中的方法进行比较。Kipf et al.(2019)提出通过训练基于图形神经网络的结构化转换模型来学习面向对象的对比表达。

SPR与DeepMDP(Gelada et al.,2019)有一些相似之处,后者训练了一个具有非规范化L2损失的过渡模型,以预测未来状态的表示,以及奖励预测目标。然而,DeepMDP使用其在线编码器生成预测目标,而不是使用目标编码器,因此容易出现代表性崩溃(Gelada et al.(2019)第C.5节)。为了缓解这个问题,DeepMDP依赖于一个额外的观察重建目标。相比之下,我们的模型是自我监督的,完全在潜在空间中训练,并使用标准化损失。我们取出后(第5节)表明,使用目标编码器对我们的方法有很大影响。

SPR也类似于PBL(郭等人,2020),后者直接预测未来状态的表示。然而,PBL使用两个通过梯度下降训练的独立目标网络,而SPR使用单个目标编码器,在没有反向传播的情况下进行更新。此外,PBL研究的是数据渐近极限下的多任务泛化,而SPR研究的是低数据状态下的单任务性能,使用的数据量是PBL的0.01%。与PBL不同,SPR还加强了各种增强的一致性,这在经验上大大提高了性能。

4,结果评价

我们在Kaiser等人(2019年)和van Hasselt等人(2019年)引入的样本有效Atari设置上测试SPR。在这个任务中,只有100000个环境步骤的训练数据可用——相当于40万帧,或者不到两个小时——相比于5000万个环境步骤的典型标准,或者大约39天的经验。在不增加数据的情况下使用时,SPR显示的分数与Yarats等人(2021年)之前的最佳结果相当。当与数据增强相结合时,SPR的人类标准化得分中值为0.415,这是这项任务的最新成果。在这种数据有限的环境下,SPR在七场比赛中实现了超人的表现:拳击、Krull、袋鼠、公路跑步者、詹姆斯·邦德和疯狂攀岩者,而之前任何一种方法最多只有两场,在26场比赛中有23场比赛的得分高于DrQ(之前最先进的方法)。聚合指标见表1,结果可视化见图3。完整的分数列表见附录中的表4。为了与之前的工作保持一致,我们报告了Wang等人(2016)的人类和随机分数。

表1:Kaiser等人(2019年)考虑的26款Atari游戏在100k环境步骤后不同方法的性能。在训练结束时记录结果,并对SPR的10个随机种子、CURL的20个和其他方法的5个进行平均。SPR在所有聚合指标上都优于以前的方法,在26场比赛中有7场比赛超过了专家的人类表现。

我们通过计算训练结束时的平均情景回报来评估不同方法的性能。我们根据专家的人类得分对得分进行标准化,以解释每个游戏中不同的得分等级,就像在以前的工作中所做的那样。游戏中一个智能体的人类标准化分数被计算为(智能体分数−随机得分/人类得分−随机得分),并在26场比赛中按平均值或中位数进行汇总。

我们发现人类在某些游戏中的得分非常高,以至于方法之间的差异被标准化消除,这使得这些游戏很难影响聚合度量。此外,我们发现中位数通常只受少数游戏的影响。这两个因素综合在一起,使得人类标准化得分中值成为判断整体表现的不可靠指标。为了解决这一问题,我们还报告了DQN标准化分数,其定义与人类标准化分数类似,并使用训练超过5000万步的DQN智能体(Mnih等人,2015)的分数进行计算,报告了所有结果和消融中这些指标的平均值和中值,并在图3中绘制了所有比赛中的分数分布。

图3:10万个环境步骤后,26款雅达利游戏中人类标准化分数分布的箱线图。whiskers 代表了26场比赛中人类标准化得分的四分位区间。每一场比赛的分数都会在训练结束时记录下来,SPR的平均值为10个随机种子,CURL的平均值为20个,其他方法的平均值为5个。

此外,我们注意到,标准的评估协议(每场游戏只评估500000帧)是有问题的,因为我们试图衡量的数量是每集的预期收益。因为剧集最多可以持续108000帧,所以这种方法最多可以收集四个完整的剧集。由于deep RL中已经存在结果差异问题(见Henderson et al.,2018),我们建议评估100多episode ,无论其长度如何。此外,为了解决Henderson等人(2018年)的研究结果,即基于少量随机种子的比较是不可靠的,我们对10个随机种子的结果进行了平均,这是以前大多数研究的两倍。

5,分析

目标编码器:我们发现,在所有情况下,使用单独的目标编码器都是至关重要的。SPR的一种变体,其中目标表示由在线编码器在没有停止梯度的情况下生成(如Gelada等人,2019年所做的),表现出灾难性的性能降低,增加后的人类标准化得分中值为0.278,而SPR为0.415。然而,用于目标编码器的EMA常数具有更大的灵活性。使用增广时,\tau=0 的值表现最好,而不使用增广时,我们使用 \tau=0.99\tau=0 的成功很有趣,因为在这种情况下,相关的方法BYOL报告了非常差的表征学习性能。我们假设,在SPR损失的同时优化强化学习目标可以解释这种差异,因为它提供了一个额外的梯度,阻止表征崩溃。这些实验的全部结果见附录C。

动态建模是关键:SPR与其他最近利用表征学习进行强化学习的方法(如CURL(Srinivas et al.,2020)和DRIML(Mazoure et al.,2020))之间的一个关键区别是我们使用了一个明确的多步动态模型。为了说明动态建模的影响,我们测试了具有各种预测深度K的SPR。表2中给出了其中两个消除,一个没有动态建模,另一个只对动态的一个步骤建模(作为非时间SPR和一步SPR),所有这些消除都在图4中可视化。我们发现,扩展动力学建模可以持续提高性能,大约可以达到 K=5。除此之外,它还会继续提高游戏子集的性能,但代价是计算量的增加。请注意,我们测试的非暂时性消融,使用BYOL(Grill等人,2020年)作为辅助任务,为投影层和预测器选择特定的架构。

表2:26场雅达利运动会的SPR消融变种得分。这里列出的所有变体都使用数据扩充。

图4:不同预测深度的SPR性能。所有26场比赛的结果均为每场比赛10粒种子的平均值。为了平衡游戏的重要性,我们计算了与人类标准化分数类似的SPR标准化分数,并显示了所有26场游戏的平均值和中位数。所有其他超参数与SPR中使用的增广参数相同。

与对比损失的比较:尽管最近在表征学习方面的许多工作都采用了对比学习,但我们发现SPR始终优于对比损失的时间和非时间变量(见表6,附录),包括CRL(Srinivas et al.,2020)。

使用二次损失导致崩溃:SPR使用的余弦相似性目标(或标准化L2损失)与之前的一些工作形成了对比,比如DeepMDP(Gelada et al.,2019),这些工作通过最小化未标准化的L2损失来学习潜在动力学模型,从而预测未来的潜在事件。为了检验这一目标的重要性,我们测试了一种SPR变体,它可以最大限度地减少非标准化L2损失(表2中的二次SPR),并发现它的性能仅略优于随机。这与Gelada等人(2019年)的结果一致,他们发现DeepMDP的表示容易崩溃,并使用辅助重建目标来防止这种情况。

预测至关重要:SPR的另一个显著特点是使用投影和预测网络。我们测试了一种既不使用SPR也不使用SPR的变体,而是直接在过渡模型使用的64×7×7卷积特征图上计算SPR损失(表2中没有投影的SPR)。我们发现这种变体的性能较差,并提出了两种可能的解释。首先,卷积网络只代表SPR网络容量的一小部分,在总共300万到400万个参数中只包含大约80000个参数。使用DQN头的第一层作为投影,因此SPR目标可以影响更多的网络,而在这种变体中,其影响是有限的。第二,在这个层面上,SPR对增强不变性的影响可能是不可取的;由于卷积特征图仅由三层组成,因此学习同时丰富且不变的特征可能很有挑战性。

6,未来工作

最近在视觉(Chen等人,2020b)和语言表征学习(Brown等人,2020)方面的研究表明,在大型数据集上训练的自我监督模型在数据有限的下游问题上表现非常好,通常优于仅使用特定任务数据训练的方法。未来的工作同样可以利用大量未标记数据,可能来自多个MDP或原始视频,以进一步提高RL方法在低数据状态下的性能。由于SPR目标是无监督的,因此可以直接应用于此类环境。

另一个有趣的方向是使用SPR学习的过渡模型进行规划。MuZero(Schrittwieser等人,2020年)已经证明,如果有足够(大量)的数据,利用奖励和价值预测监督的模型进行规划可以非常有效。目前尚不清楚此类模型是否能在低数据状态下正常工作,以及使用自监督目标(如SPR)增强此类模型是否能提高其数据效率。

研究SPR等自我监督方法是否能提高对未知任务或环境变化的泛化,这也很有趣,就像ImageNet上的无监督预训练可以推广到其他数据集一样(He等人,2020年;Grill等人,2020年)。

7,结论

在本文中,我们介绍了自预测表示(SPR),一种自监督表示学习算法,旨在提高深度强化学习智能体的数据效率。SPR通过直接预测目标编码器产生的未来状态表示,学习在不同环境观测视图中具有时间预测性和一致性的表示。SPR在10万步Atari基准上实现了最先进的性能,与之前的工作相比有了显著的改进。我们的实验表明,SPR具有很强的鲁棒性,在禁用数据增强或时间预测的情况下,SPR的性能优于以前的技术水平。我们为未来的工作确定了重要的方向,并希望在自我监督学习和强化学习的交叉点上继续进行研究,从而找到与人类的效率和鲁棒性相匹敌的算法。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值