实体机器人导航中可迁移的元技能的无监督强化学习

[论文翻译]Unsupervised Reinforcement Learning of Transferable Meta-Skills for Embodied Navigation(实体机器人导航中可迁移的元技能的无监督强化学习)

摘要

视觉导航是通过仅使用视觉观察来智能地导航到目标对象(例如电视)来训练具体化主体的任务。当前的深度强化学习模型的关键挑战在于对大量训练数据的需求。构建带有目标对象信息的足够的3D合成环境极其昂贵。在本文中,我们专注于资源匮乏环境中的视觉导航,在该环境中,只有少数训练环境带有对象信息注释。我们提出了一种新颖的无监督强化学习方法,可以在没有任何监督信号的情况下从无注释的环境中学习可转移的元技能(例如,绕过障碍物,直行)。然后,当提供视觉导航指定的奖励时,代理可以通过学习高级主策略来组合这些元技能,从而快速适应视觉导航。在AI2-THOR环境中进行的评估表明,在SPL上,我们的方法相对于基线的性能明显优于53.34%,并且进一步的定性分析表明,我们的方法为视觉导航学习了可传递的运动原语。

1.Introduction

视觉导航是训练可实现主体的任务,该主体可以根据对象的自然语言名称智能地导航到对象的实例。对于实体机器人来说,除了作为计算机视觉和人工智能的基本科学目标之外,在3D环境中导航也是一项关键技能。此任务可能会使许多实际应用受益,例如家用机器人,个人助手和危险消除机器人,在这些应用中,实体机器人可以改善生活质量并增强人员的能力。
近来,已经提出了各种深度强化学习(DRL)方法[44、26、42、41、33、46、47、13、23、48、21]来改善导航模型。但是,它们通常数据效率低下,并且需要大量的训练数据。为了训练这些深层次的模型,我们需要构建足够数量的3D合成环境并注释对象信息,这在现实应用中非常昂贵耗时,甚至不可行。此外,受过训练的实体机器人很难转移到不同的环境。
值得注意的是,当人类遇到一项新任务时,他们可以通过转移在整个生命中从各种任务中学到的元技能,迅速学会解决问题。这与当前基于深度强化学习的导航方法形成鲜明对比,后者是从头开始学习策略网络的。相反,人类具有天生的能力,可以跨任务转移知识并交叉利用知识,这减轻了大量训练样本的负担。
受这一事实的启发,我们寻求元学习[28,9]的帮助,这些学习使用少量数据快速学习,而转移学习[39,43]则通过从已经学习的相关任务中转移知识来加速学习新任务。在我们的工作中,我们将资源匮乏的视觉导航框架视为元学习问题。在元训练阶段,环境不会使用对象信息进行注释,并且我们假设取得了一系列任务,这些任务称为元训练任务。从这些任务中,实体机器人(我们称为元学习者)随后通过执行一系列原始动作来学习一组可迁移的子策略,每个子策略对应于特定的元技能(也称为运动原语,例如,绕过障碍物,直行)。在元测试阶段,提供了一些带有注释的环境,这些环境带有手动指定的视觉导航奖励。如图1所示,在从元训练场景中学习了可转移的子策略后,仅要求代理学习新的主策略以组合子策略,以便它可以快速适应视觉导航。在元训练期间,主策略是特定于任务的,并且子策略针对场景中的所有任务共享。主策略确定子策略的执行顺序,并进行优化以快速适应每个元训练任务。通过使用基于梯度的元学习算法,可以优化子策略的跨任务性能[28,9]。将整个策略分为任务特定部分和任务不可知部分的分层体系结构[11、37、3、10]也可以避免元过度拟合:典型的基于梯度的元学习算法很容易导致过度拟合,因为整个网络仅在几个示例上进行了更新。
在这里插入图片描述

图1:我们的ULTRA框架概述。左侧的蓝色部分是我们的对抗训练过程,其中任务生成器会自动提出越来越具有挑战性的任务的课程,元学习者将学会完成他们。通过这些任务,元学习者可以学习一组可迁移的子策略。然后,在右侧,在给定任务特定的外部奖励的情况下,元学习者可以通过学习新的主策略来快速适应视觉导航。 θ k θ_k θk是对应第k个子策略的参数。

然而,典型的元学习方法[28,9]需要足够数量的人工设定的任务来进行元训练,这对于具体化的代理来说是不实际的。然后,在本文中,我们提出了一种新颖的无监督强化学习方法,该方法可以自动生成任务课程,而无需手动定义任务。在我们的无监督强化可迁移元技能学习(ULTRA)框架中,代理可以有效地学习可转移元技能,从而在进入新环境时通过利用元技能快速适应新任务。该框架的主体是我们所谓的基于课程的对抗训练过程,其中一个agent(任务生成器)生成难度越来越大的任务课程。另一个agent(元学习者)通过完成生成的任务来学习元技能。在这种无人监督的对抗训练过程之后,元学习者可以通过学习新的主策略以结合所学的元技能来快速适应新的视觉导航任务。我们的实验结果表明,我们的方法大大优于基线方法,并且进一步的消融实验证明了每种成分的有效性。此外,定性分析证明了子策略的一致行为。总而言之,我们的贡献主要有四个方面:

  • 我们提出了一种新颖的ULTRA框架,通过无人监督的强化学习来学习元技能。
  • 元学习者的分层策略将整个策略分为任务特定部分和任务不可知部分,这降低了元过度拟合的可能性,并保证了更快的收敛。
  • 代替手动设计任务,我们提出了一种新颖的基于课程的对抗训练策略,其中任务生成器自动向元学习者提出越来越困难的任务。此外,我们定义了多样性措施,以鼓励任务生成器生成更多不同的任务。
  • 我们在资源匮乏的环境中进行实验,实验结果表明,在SPL指标上,我们的方法显着优于基线53.34%,并且仅需要三分之一的迭代次数即可收敛。

2.Related Work

**视觉导航。**传统的导航方法[4、6、16、18、22、38]通常在给定的环境占用地图上采用几何推理。他们执行路径规划[5、15、20]来确定机器人执行哪些操作。最近,已经提出了许多深度强化学习(DRL)方法[44、26、33、46、47、13、23、48]。虽然这些方法取得了很大的进步,但由于将这些DRL方法需要大量的训练时间和带注释的环境信息,因此很难将它们应用于实际情况,这既费时又非常昂贵。在我们的工作中,我们专注于在资源匮乏的情况下开发一种无监督的强化学习方法。
**元学习。**元学习,也称为学习如何学习,利用从学习多个任务中获得的经验来优化其快速高效地学习新任务的能力。共有三种常见的方法:1)学习有效距离度量的基于度量的方法[34、36、40]; 2)学习使用外部或内部存储器存储经验的基于存储器的方法[24、27、29、32];3)基于梯度的方法[28、9、14、31、11]明确为快速学习建模参数。我们的方法依赖于基于梯度的元学习算法Reptile [28]。Reptile算法旨在在元训练过程中学习良好的参数初始化,这需要提供大量的相关任务。因此,在元测试过程中,只需几次梯度更新,该模型就可以在新任务上取得良好的性能。一个重要的区别是我们的方法在元训练阶段不需要大量的人工设计任务。
**基于内在动机的探索。**心理学家所谓的内在动机或好奇心已被广泛用来训练agent在没有外部监督的情况下先探索环境和创造环境。内在奖励主要有两类:1)激励机器人探索“新”状态[8,12,35]; 2)激励机器人采取行动,以减少其对环境的预测不确定性[30]。
Sukhbaatar等 [35]在无监督探索中引入对抗训练方法,其中一种模型提出任务,另一种模型学习完成任务。在他们的工作中,完成任务的模型在训练过程中共享整个参数,并将这些参数用作下游任务的初始化。但是,我们的工作有所不同,因为我们将对抗训练过程视为一系列独立的元训练任务,并且每个任务都拥有独立的任务特定参数。同样,两个代理之间没有通信,而在我们的工作中,生成器将目标观察结果发送到包含任务信息的元学习器。
Gupta等 [12]基于最近提出的无监督探索技术[8]提出了无监督元学习方法。他们使用启发式方法来定义内在奖励(即随机判别器,基于熵的方法),从而在元训练期间自动执行任务生成过程。相反,我们的工作引入了对抗性训练策略,该策略更具解释性和效率。

3.Method

在本节中,我们首先定义用于视觉导航的元学习设置。然后,我们描述我们的ULTRA框架。最后,我们讨论如何将元技能转换为视觉导航。

3.1. Problem Setup

我们的目标是以无人监督的方式学习元技能,然后将获得的元技能转移到新任务(即视觉导航)上。如图1所示,我们的方法有两个阶段:1)在元训练阶段,agent通过无人监督的强化学习来学习可转移的元技能,而无需人工指定奖励功能。我们使用基于课程的对抗性训练策略来自动生成元训练任务课程。 2)在元测试阶段,需要agent利用所学的元技能将其快速转移到视觉导航任务。此阶段的训练受到完全监督,但只需要少量训练数据。
请注意,自动生成的元训练任务与元测试阶段的视觉导航不同。在元训练期间,学习目标是根据例如RGB观察和任务生成器给出的图像恢复agent的x,y和视角(称为图像驱动导航)。不同的目标对应于不同的任务。在元测试期间,代理的输入不是图像,而是语言命令(例如,微波炉)。要求代理理解各种语言命令并在未知的场景中导航到该命令指定的对象(称为语义视觉导航)。

3.2. Overview

如图1所示,我们的ULTRA框架主要包括三个组成部分:基于课程的对抗训练策略,共享的分层策略和元强化学习。在基于课程的对抗训练过程中,任务生成器自动提出任务课程,元学习者学习完成这些任务。具体来说,元学习者的体系结构是共享的分层策略,它包含一个主策略和一组子策略。在每个主策略步骤,主策略首先选择要激活的子策略,然后所选的子策略执行原始操作。从头开始为每个任务学习主策略,并对特定于任务的信息进行编码。子策略是共享的,并且封装了可以在所有任务之间转移的元技能。对于任务生成器生成的每个任务,元学习器首先重新初始化主策略,然后学习组合子策略以完成任务。在使主策略适应新任务后,应用元强化学习算法来优化子策略,从而使跨任务的性能达到最佳。
在这里插入图片描述
图2:任务生成器的图形说明。生成器从相同的位置(由蓝色机器人图标表示)开始,并生成用于元训练的任务。难度(由路径的黑暗表示)随着训练过程的增加而增加。

3.3. Curriculum-Based Adversarial Training

在这种情况下,我们有两个agent:任务生成器和元学习器。在每次迭代期间,任务生成器从初始状态 s 0 s_0 s0开始,执行一系列动作,最后在状态 s T s_T sT停止。然后,它将在最终状态 s T s_T sT的自我中心观察发送给元学习者。给定在最终状态 s T s_T sT的观察结果,元学习器的目标是从 s 0 s_0 s0达到 s T s_T sT,我们称之为任务。我们在状态 s 0 s_0 s0初始化元学习器,让它学习此任务的多个情节,并计算成功率r。然后,任务生成器提出一个新任务,元学习者重复上述过程。
我们的目标是自动生成多样化任务的课程表,首先我们从一个简单的任务开始,然后逐步增加任务难度。任务生成器的奖励功能由三个部分组成:基于成功率的最终奖励,对任务生成器采取过多步骤进行惩罚的中间奖励,以及衡量任务多样性的多样性度量。
成功率: 我们使用元学习者在多个情节之后的成功率来衡量任务的难度,并给予生成者最终的回报。最终的奖励定义为:
R f = k ∗ ( 1 − r ) R_{f}=k *(1-r) Rf=k(1r)
其中k是比例因子,r是成功率。
步长效率: 在每个时间步长处,任务生成器都会收到负的恒定中间奖励。我们对任务生成器采取太多步骤进行了惩罚,这鼓励它生成元学习者无法完成的最简单任务。在前几次迭代中,任务生成器可以通过执行少量步骤来提出任务。然后,随着元学习器功能的增强,将采取更多步骤来生成更困难的任务(图2中的定性示例)。
任务多样性: 为了为元学习者探索更广阔的状态空间,以建立对环境的更好的视觉和物理理解,我们在任务生成器的奖励功能中添加了一个附加项,以鼓励其生成更多不同的任务。形式上,用 π \pi π代表当前策略,用 π ′ \pi' π代表之前的策略,多样化度量 D D D可以表示为:
D = ∑ s t ∈ τ ∑ π ′ ∈ Π D K L ( π ′ ( ⋅ ∣ s t ) ∥ π ( ⋅ ∥ s t ) ) D=\sum_{s_{t} \in \tau} \sum_{\pi^{\prime} \in \Pi} D_{K L}\left(\pi^{\prime}\left(\cdot | s_{t}\right)\left\|\pi\left(\cdot \| s_{t}\right)\right)\right. D=stτπΠ

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值