2022ICLR《LEARNING TO MAP FORACTIVE SEMANTIC GOAL NAVIGATION》阅读笔记

研究了未知环境下的目标导航问题。解决这个问题需要学习上下文语义先验,这是一个具有挑战性的努力,因为室内环境的空间和语义可变性。当前的方法学习通过面向目标的导航策略函数来隐式地编码这些先验,这些策略函数在空间表示上操作,这些空间表示仅限于代理的可观察区域。在这项工作中,我们提出了一个新的框架,该框架主动学习在智能体的视野之外生成语义地图,并利用未观察到的区域中语义类的不确定性来决定长期目标。我们证明,通过这种空间预测策略,我们能够在场景中学习语义先验,这些场景可以在未知环境中利用。此外,我们还展示了在搜索语义目标时如何通过平衡探索和利用来定义不同的目标。我们的方法在Matterport3D数据集的视觉逼真环境中进行了验证,并在竞争性基线上显示出改进的目标导航结果。

1 INTRODUCTION

是什么使生物系统在新的环境中成功地导航到语义目标?以一只狗为例,它家里的食物托盘就放在冰箱旁边。当狗狗第一次进入新房子时,它们会在冰箱旁边寻找食物托盘,尽管新房子的外观和布局可能会有很大的不同。这是值得注意的,因为它表明狗能够对语义实体之间的空间关联进行编码,这可以在试图完成导航任务时加以利用。人类在类似的情况下也表现出同样的技能,尽管更加微妙,因为根据现有的观察,我们可以有意识地选择相信我们之前的知识,而不是世界的语义结构,或者继续探索环境。换句话说,如果我们看到一个有烤箱的房间的局部视图,我们就可以推断,冰箱很可能存在于这个未被观察到的空间中。此外,如果我们试图够到沙发,那么我们可以高度肯定地推断它将位于另一个房间。这意味着我们有内部机制来量化从未观察到的空间推断信息的不确定性,这指导了我们的决策过程。

受这些观察结果的启发,在这项工作中,我们研究了机器人代理在不可见环境中的目标导航问题,并提出了一种用于编码室内场景语义先验的主动学习方法。我们的方法包括学习一个映射模型,该模型可以在包含物体(例如椅子,床)和结构(例如地板,墙壁)的未观察区域中预测(幻觉)语义,并且在测试期间使用这些预测的不确定性来规划通往目标的路径。与传统的测绘和导航方法(Cadena等人,2016年)(即SLAM)相反,我们的不确定性公式旨在捕捉我们对特定位置是否存在特定物体缺乏信心的情况。这将产生更有意义的表示,适合于目标驱动的任务。

最近,导航的学习方法越来越受欢迎,解决目标驱动导航的最初努力集中在端到端响应式方法上,这些方法学习将像素直接映射到动作(Zhu等人,2017;Mousavian et al, 2019)。这些方法没有对环境的显式表示,而且往往泛化不良。为了解决这个问题,大多数当前的方法学习一种地图表示,这种表示能够编码关于场景的几何和语义的先验信息,作为情景记忆(Chaplot等人,2020b;a;Gupta等人,2017;Georgakis et al, 2019)。然而,通过这些方法创建的地图仅限于包含智能体直接观察到的区域的信息,这导致了空间预测模型的引入,这些模型要么预测占用(Santhosh Kumar Ramakrishnan & Grauman, 2020),要么预测超出智能体视野的房间布局(Narasimhan等人,2020),并在导航任务上展示了改进的性能。我们的工作与这些方法在三个原则方面有所不同:1)我们制定了一个主动的训练策略来学习语义地图,2)我们利用了规划过程中预测的不确定性,以及3)与预测占用相比,我们的模型解决了一个更难的问题,需要学习语义模式(例如桌子被椅子包围)

在这项工作中,我们介绍了Learning to Map(L2M),这是一个用于目标导航的新框架,由两部分组成。首先,通过信息增益目标选择训练样本,主动学习两阶段分割模型的集合。这些模型在自上而下的地图上运行,并预测占用和语义区域。其次,我们通过Pathak等人(2019年)和Seung等人(1992年)提出的集成模型中的不一致性来估计模型的不确定性,并展示了它在定义目标方面的有效性,以便计划者积极选择语义导航的长期目标。此外,我们研究了主动训练过程中不同的信息获取目标,并阐明了如何使用模型的不确定性来平衡探索和开发,以找到语义目标。我们提出的方法在使用Habitat(Savva等人,2019年)模拟器的Matterport3D(Chang等人,2017年)数据集上,比竞争基线表现出了改善的目标导航任务成功率。

2 RELATED WORK

Semantic SLAM.传统的导航方法主要集中在在考虑下游任务之前构建环境的3D表示(Cadena等人,2016)。虽然这些方法通常是几何的,但有几种SLAM方法尝试将语义信息与重建的几何地图关联起来,主要是在对象级别。例如,在McCormac等人(2018年)的工作中,通过Mask R-CNN预测的实例分割被整合到促进每个对象的重建,而Bowman等人(2017年)的工作提出了一个概率公式来处理不确定的对象数据关联。然而,SLAM系统很少考虑主动探索,因为它们与可以编码语义信息的深度学习架构的任务驱动可学习表示不自然地兼容。其他最近的作品(Katsumata等人,2020年;Cartillier等人,2021年)试图构建2D语义地图,主要关注全局场景的语义传递,或者假设环境是可访问的。相比之下,我们提出的方法通过主动学习如何在代理周围的观察和未观察区域中预测语义来处理未知环境中的目标任务。

Learning based navigation methods.最近出现了一大批基于学习的方法用于室内导航任务,得益于Gibson(Xia等人,2018年)、Habitat(Savva等人,2019年)和AI2-THOR(Kolve等人,2017年)等高质量模拟器的引入。使用显式任务相关地图表示的方法已经证明在未知环境中比具有隐式世界表示的端到端方法更具有更好的泛化能力。例如,在Gupta等人(2017年)的工作中,可微分的映射器学习从RGB图像预测场景的俯视自我中心视图,然后是可微分的规划器,而在Chaplot等人(2020a年)的工作中,使用Mask R-CNN构建了场景的俯视语义地图,该地图由一个学习的策略使用,该策略预测地图中的目标位置。在概念上与我们的方法更相似的是,一些方法试图通过学习来预测代理视野之外的语义或布局先验。与这些研究相比,我们制定了一种主动的、与目标无关的策略来预测语义地图并定义目标选择目标( define goal selection objectives.)

Uncertainty Estimation.最近的许多研究估计了深度学习模型的不确定性。在某些情况下,这些不确定性估计可以作为主动探索的目标(Sekar等人, 2020; Pathak等人, 2019),因为最大化认识不确定性被用作最大化信息增益的代理(Seung等人, 1992; Pathak等人, 2019)。能够作为主动探索目标的深度学习模型的不确定性估计分为两类:贝叶斯神经网络和集成。Lakshminarayanan等人(2017);Gawlikowski等人(2021)发现,贝叶斯方法每次预测所需的多次传递可能导致比小集合更高的计算成本。此外,与贝叶斯方法相比,集成更容易实现,只需很少的超参数调优,这使我们将工作重点放在基于集成的方法上。我们测试了使用熵(Shannon, 1948)来估计认识不确定性,这是使用预测熵(BALD)(Houlsby等人, 2011)和模型输出之间的方差(Seung等人, 1992)来近似模型信息增益的方法。我们发现最大化方差作为一个目标来主动微调我们的地图预测模型效果最好。这种训练过程类似于Bucher等人(2021);Chaplot等人(2020c);Sener&Savarese(2018)在训练过程中利用的主动学习方法。我们还使用我们的认识不确定性估计来构建我们估计的概率分布的置信区间,我们在测试时使用这些置信区间来选择目标以进行目标驱动导航。现有文献中,已经提出了用于平衡探索、开发和安全性的下限(Galichet等人, 2013)和上限(Auer等人, 2002)置信区间策略,并扩展用于MDPs(Azar等人, 2017)和强化学习(Chen等人, 2017)。

3 APPROACH

我们提出了一个新的框架,用于目标导航,该框架使用了一个学习的语义地图预测器来选择信息丰富的目标。与先前的工作(Santhosh Kumar Ramakrishnan & Grauman, 2020; Chaplot等人, 2020a)相比,我们利用了智能体视野之外的预测结果来制定基于不确定性的目标选择策略。此外,我们积极收集数据来训练地图预测器,并研究不同的信息增益目标。由于我们的目标选择策略制定,我们的方法不需要专门训练以预测每个目标物体的目标,从而实现了对语义先验的目标独立学习。我们的方法以RGB-D观测作为输入,并在地图的未观测区域预测语义。然后根据预测的不确定性进行目标选择。最后,一个局部策略负责到达目标。我们的流程概述如图1所示。

3.1 SEMANTIC MAP PREDICTION

我们描述了一种通过预测智能体视野之外的语义信息来学习如何映射的方法。我们强调,这超越了传统的映射(即在智能体的路径中积累多个视图),因为它依赖于语义实体之间空间关联的先验信息编码,来产生缺失信息的幻觉。受过去语义分割模型在学习上下文信息方面的成功启发(Zhang et al .2018;Yuan et al . 2020),我们将语义图预测表述为一个两阶段分割问题。

我们的方法以时间步 t 的不完整占用区域 p_t \in R^{ \left | C^o\right | \times h \times w} 和地面投影的语义分割\widehat{s}_t \in R^{ \left | C^s\right | \times h \times w}  作为输入。输出是一个自上而下的语义局部区域\widehat{m}_t \in R^{ \left | C^s\right | \times h \times w} ,其中 C^o是包含未知、占用和自由的类的集合,C^s是语义类的集合,h、w 是局部区域的尺寸。为了获取 p_t,我们使用提供的摄像机内参和时间 t 的深度观测,首先获得一个点云,然后类似于Santhosh Kumar Ramakrishnan & Grauman(2020),将其离散化并进行地面投影。为了估计 \widehat{s}_t,我们首先训练一个 UNet(Ronneberger等人,2015)模型来预测时间 t 的RGB观测的语义分割。所有的局部区域都是以智能体为中心的,即机器人位于局部区域的中间并向上观察。我们地图中的每个空间位置(单元格)的尺寸为 10cm × 10cm。

所提出的两阶段分割模型通过两个阶段预测了幻觉语义区域。首先,我们根据已经观察到的内容,通过学习来产生未观察区域的占用区域的缺失值。其次,给定预测的占用,我们预测最终的语义区域 \widehat{m}_t。这些步骤被实现为两个UNet编码器-解码器模型,f^o用于在占用空间中预测\widehat{p}_t=f^o(p_t,\theta^o) ,f^s 用于在语义空间中预测 \widehat{m}_t=f^s(\widehat{p_t} \oplus \widehat{s}_t;\theta^s),其中 \widehat{p}_t是预测的包含未观测区域的局部占用量, ⊕ 是连接操作,\theta ^o,\theta^s 分别是占用和语义网络的随机初始化权重。图像分割模型是独立训练的,其地面投影输出 \widehat{s}_t会基于智能体的自我中心单视图观察对 f^s进行条件化。该模型使用像素级的交叉熵损失进行端到端训练,用于占用和语义类,并为每个地图位置预测类别的概率分布。我们假设有地面真实的语义信息,这样我们就可以生成自我中心的自顶向下占用和语义示例。

这个综合目标通过同时影响f^of^s的语义损失反向传播梯度来激励学习预测可信的语义区域。此外,在扩展到更困难的预测语义类别C^s(包括预测物体的位置以及地图中的墙壁等场景结构)的任务之前,执行此过程可以在一小部分类别C^o上产生未知区域的初始幻觉。语义地图预测器的概述如图2所示。在导航过程中,将本地语义区域注册到用于规划的全局地图中。由于我们在每个位置上预测了类别集合上的概率分布,因此使用贝叶斯定理对局部区域进行注册。全局地图使用统一的先验概率分布进行初始化。

3.2 UNCERTAINTY AS AN OBJECTIVE

机器人系统的一个关键组成部分是它对未知事物进行建模的能力。这种能力使智能体能够识别故障案例,并决定是相信其预测还是继续探索。在我们的语义地图预测问题中,估计地图上每个位置的语义预测的不确定性有助于理解模型不知道的内容。我们考虑了我们在用深度学习建模视觉问题时面临的两种不确定性:任意(aleatoric)不确定性和认知(epistemic)不确定性(Kendall &,Gal,2017;Gal,2016)。

首先,任意不确定性是系统的不确定性。假设沙发在某一特定位置的真实概率为30%。考虑一个场景,我们的目标是沙发,我们的模型估计沙发在特定位置的真实概率为30%。无论沙发是否出现在那个位置,我们的模型都是正确的。这种不确定性反映在我们模型的概率输出中。我们把这个模型记为,其中\thetaf的参数。

其次,认知不确定性捕获了模型参数的不确定性。在训练中,我们的目标(object)是通过识别表现不佳的情况来改进预测模型。我们使用认知不确定性来制定这一目标,因为具有高认知不确定性的样本与增加的信息增益相关。我们回想一下,f是一个用交叉熵损失训练的分类器,因此f的输出是一个概率分布。为了估计认知不确定性,我们考虑模型f的概率解释P(m_t | p_t,\widehat{s}_t,\theta ),它定义了参数θ上的似然函数。参数θ是从分布q(θ)中抽样的随机变量。我们将f构造为在参数\{ \theta_1,\theta_2,....\theta_N\}上定义的两阶段分割模型的集合,集合中模型之间的方差来自于每个网络中不同的随机权重初始化(Pathak,2019;Sekar et al, 2020)。我们的模型通过对抽样模型的权重求平均值

来估计真实概率分布P(m_t | p_t,\widehat{s}_t )。然后,在之前的工作(Seung et al, 1992;Pathak,2019)中,认知不确定性可以从集合中模型输出之间的方差来近似,。在我们的方法中,我们以两种不同的方式使用不确定性估计。首先,在语义预测器的训练过程中,我们主动选择具有高信息增益的地图位置(章节3.2.1)。第二,在object-goal导航过程中,我们积极选择长期目标,鼓励智能体探索寻找目标对象(第3.3节)。

3.2.1 ACTIVE TRAINING

训练语义地图预测器的一个典型过程是在场景中选择两个随机位置,然后在这两个位置之间沿着最短路径对结果进行采样。然而,这会导致收集大量来自重复或普遍不感兴趣区域(例如缺乏感兴趣对象的空间)的观察。我们使用这种朴素策略进行预训练(约 900K 个示例),并制定了一个后续步骤,其中我们使用信息增益目标主动收集训练样本。我们选择目的地,使得我们预训练模型的预测最大化这一目标。由于我们可以将我们产生的地图\widehat{m}_t解释为对未来一段时间窗口T内观察的语义分割的预测\{\widehat{s}_{t+1},....,\widehat{s}_{t+T}\},我们对信息增益的贪婪目标允许我们在预期获得最具信息量的观察方向上收集数据。然后,智能体根据本地策略移动(在第3.3.3节中描述)。然后使用收集的训练示例(大约500K)对模型进行微调。

我们通过选择(x,y)-网格位置,以最大化I(m_t;\theta|p_t,\widehat{s}_t)的近似值来评估哪些观察将成为训练的有用数据。I(m_t;\theta|p_t,\widehat{s}_t)表示在给定占用观测值p_t和语义地图区域\widehat{s}_t的情况下,更新模型参数\theta对地图\widehat{m}_t的信息增益。简言之,我们将网格位置指定为l_j \in \{l_1,....l_k\},其中k=h\times w表示我们的模型f估计\widehat{m}_th \times w的地图区域。我们从地图中选择具有最大认知不确定性的位置作为最大化信息增益的代理。为此,我们定义了所有类别的平均认知不确定性。我们使用贪婪策略从时间t的地图中选择位置l_j

实际上,这些位置是从全局地图中累积的不确定性估计值中选择的。我们所选择的主动训练策略的替代方案包括熵最大化策略(Shannon, 1948)或使用预测熵(BALD)近似模型信息增益(Houlsby等,2011)。我们通过实验将这些替代方法与4.1节中的方法进行比较。

3.3 GOAL NAVIGATION POLICY

我们研究了新环境中目标驱动的导航问题,该问题可以被表述为部分可观察的马尔可夫决策过程(POMDP) (S,A,O,P({s}'|s,a),R(s,a))。我们感兴趣的是定义一个策略,该策略输出的目标位置尽可能接近目标类c。状态空间S由代理的姿态x和全局地图中随时间累积的语义预测\widehat{m}_t组成。行动空间A由地图上的离散位置h \times w组成。观测空间O为RGB-D自中心观测,P({s}'|s,a)是转移概率。对于监督策略,常见的奖励选择是R(s,a)=D(s,c)-D({s}',c),它是智能体与目标之间的距离差,其中D(.,.)是最短路径上的距离。然而,这会导致一个依赖于目标的学习策略,需要在定义目标时重新训练。因此,我们制定了一个策略,该策略在每个时间步累积预测的语义区域\widehat{m}_t,并利用预测的类别概率以及地图位置的不确定性估计来选择信息丰富的目标。

3.3.1 UPPER CONFIDENCE BOUND FOR GOAL SELECTION

我们现在使用我们的不确定性驱动探索方法来明确地提出目标(objective)选择的目标(goal)。在测试期间执行任务时,f无法获得信息,因为我们没有使用智能体观察在线更新模型。然而,智能体通过在全局地图中累积观察和连续预测来获得信息。我们构建了一个策略,以便使用这些累积的信息从未观察到的地图位置选择目标。我们策略背后的想法很简单;如果智能体不确定目标的位置,那么它应该优先考虑探索,否则它应该更专注于利用其对候选目标位置的知识。

由于我们的任务是目标驱动的,我们可以缩小我们的信息增益目标,以降低对目标类别最不确定的地图区域的不确定性。我们将f_c表示为仅返回给定目标类别c的函数f的值。我们的集合fc估计每个地图位置给定观察p_t和语义分割\widehat{s}_t时类别c位于位置i的概率P_c(m_t | p_t,\widehat{s}_t )。测试时的目标类别的不确定性由目标类别预测的方差​​​​​​​给出。

我们建议使用真实概率P_c(m_t | p_t,\widehat{s}_t )的上限置信度来选择目标,以选择具有高回报但也具有获得新信息的高潜力的位置。上限置信区间长期以来已经被用于在不确定性下进行计划的探索和利用的平衡。我们将表示为目标类概率的标准差,将表示为目标类别概率的平均值。然后,我们观察到上限成立,其中α1是一个固定但未知的常数超参数。遵循Chen等人(2017),我们使用这个上限,并从智能体已观察到的或幻想的任何地图区域中选择目标。

在实践中,这是根据我们的预测和随着时间积累的不确定性估计来评估的。

3.3.2 ALTERNATIVE STRATEGIES

虽然我们使用我们提出的上界策略来选择最佳候选目标位置,但我们假设了几种产生竞争绩效的替代策略。我们考虑以下对目标导航的不确定性和概率估计的解释。

从这些解释中我们看到,我们的上限策略可能会选择具有高潜在信息增益(高方差)的位置,而不是我们相当确定找到目标对象的位置(高概率,低方差)。为了考虑其他探索和开发的权衡,我们还观察了下限以某种固定但未知的概率成立。然后,我们可以制定以下备选目标选择策略。

下限策略。下限策略优化安全性(Galichet et al ., 2013)。我们可以通过选择具有最低不确定性的多个可能包含目标类别的位置中的一个来区分,目标是:然而,该策略不会探索具有高不确定性的区域以获取信息。

混合策略。我们可以尝试平衡下限和上限策略的利弊,根据发现目标对象的概率高低来在两者之间切换。我们调整一个超参数α2来确定\mu_c(p_t,\widehat{s}_t)的“高”和“低”值的截止点。我们选择的目标是:,因此当类在某个位置的概率很高时,我们通过下界选择安全策略,当类在某个位置的概率不高时,我们通过上限选择探索策略。

平均策略。为了评估我们的不确定性估计是否有用,我们还考虑以下不包含不确定性的目标

3.3.3 LOCAL POLICY

最后,为了达到地图中选定的目标,我们采用了现成的深度强化学习模型DD-PPO (Wijmans等人,2019),无需重新训练。该模型针对点目标导航任务进行训练,在每个时间步接受以自我为中心的深度观测和当前目标,并为我们的智能体输出下一个导航动作

4 EXPERIMENTS

我们使用Habitat 模拟器在Matterport3D (MP3D)数据集上进行实验。MP3D包含真实室内场景的重建,具有较大的外观和布局变化,Habitat为逼真的智能体运动提供连续控制。我们使用标准train/val split作为在线Habitat挑战的测试集,其中包含56个用于训练的场景和11个用于验证的场景。我们进行了三个关键实验。首先,我们从导航和地图质量两方面评估了语义地图预测器在不同主动训练策略下的性能(第4.1节)。其次,我们将我们的方法与其他导航策略在达到语义目标方面进行了比较,并提供了不同目标选择策略的对比(第4.2节)。最后,我们对停止决策和本地策略在整体性能中的影响进行了误差分析(第4.3节)。对于所有的实验,我们使用集合大小N = 4。经过训练的模型和代码可以在这里找到。

我们遵循Batra等人(2020)中描述的目标导航任务的定义。给定一个语义目标(例如椅子),目标是导航到场景中目标的任何实例。智能体是在语义地图预测器训练过程中没有观察到的新场景中的随机位置生成的。智能体可以无噪声地访问模拟器提供的RGB-D观测和姿态。注意,从噪声传感器读数中估计姿态超出了本工作的范围,可以通过结合现成的视觉里程计来解决(Zhao et al .,2021)。动作空间由MOVE_FORWARD by 25cm, TURN_LEFT和TURN_RIGHT 10°,停止组成。如果agent在距离目标一定距离(1m)内选择STOP动作,并且必须在特定的时间预算(500步)内完成,则一个episode是成功的。除非另有说明,在我们的实验中,我们使用MP3D中存在的11个对象目标类别的代表性集合:椅子、沙发、床、垫子、柜台、桌子、植物、厕所、电视、橱柜、壁炉,并在验证场景中生成2480个测试集。为了评估所有方法,我们报告了以下指标:(1)Success:成功事件的百分比,(2)SPL:成功由路径长度加权,(3)Soft SPL:与失败事件的SPL为0不同,该指标是由路径长度加权到目标的距离。(4) DTS: agent到事件结束时目标的测地线距离。在接下来的实验中,我们将评估我们方法的不同变体。我们遵循L2M-X-Y的命名约定,其中X, Y分别对应映射预测器训练策略和目标选择策略。例如,L2M-Active-UpperBound指的是我们提出的方法,该方法使用主动训练后的语义映射预测器(章节3.2.1)和Eq. 2进行目标选择。以下部分提供了具体变体的更多细节。

4.1 EVALUATION OVER ACTIVE TRAINING METHODS

我们通过比较不同的基于集成的主动训练策略对预测地图object-goal导航的质量的影响来评估我们主动训练语义映射预测器的方法的影响。语义图预测是在常用的交叉比联合分割指标(Intersection over Union, IoU)和F1分数上进行评估的。我们使用九个类别:未知,地板,墙壁,床,椅子,靠垫,沙发,柜台,桌子。在11个验证场景中收集了17900个训练中未观察到的测试样例。对以长度为10的序列收集的大小为64×64的预测地图区域进行评估。本实验的目的是在agent执行导航任务时确定其周围预测映射区域的质量。结果如表1(目标导航)表2(地图预测)所示。变体Offline是我们的语义图预测模型,没有主动策略的微调,BALD调整了BALD目标(Houlsby等人,2011)来主动训练我们的集合,熵是指我们的模型用熵目标进行了微调,用于主动训练(Shannon, 1948)。对于导航比较,所有方法都使用Eq. 2中的上界目标。虽然基线报告的性能彼此相似,但我们的方法在IoU中获得了4.4%,F1中获得了6.5%,Success中获得了3.9%,SPL中获得了3.7%。这表明L2M-Active在训练过程中更有效地针对具有高认知不确定性的数据,并验证了我们对主论文第4.1节中提出的信息获取目标的选择。图3显示了L2M-Active的定性结果。

 

4.2 COMPARISONS TO OTHER NAVIGATION METHODS 

在这里,我们根据三个竞争基准来评估L2M:

L2M-Offline-FBE:我们将Yamauchi(1997)经典的基于边界的探索(FBE)用于目标选择与我们的地图预测器相结合,以促进停止决策。

Segm+ANS+OracleStop:此基线使用Active Neural SLAM (ANS)作为探索策略来遍历地图和我们的图像语义分割以检测对象。如果检测到目标对象,则代理导航到该目标,如果代理到达正确的目标,则oracle决定停止情节。代理没有访问语义映射的权限。

SemExp:在CVPR 2020人居目标导航挑战赛中获胜的Chaplot等人(2020a)提出的方法。由于Habitat挑战中使用的模型尚未公开,因此我们使用该方法的变体(使用Mask R-CNN)与Chaplot等人(2020a)报告的六个对象类别进行比较。此外,由于Chaplot等人(2020a)中使用的MP3D评估集也不可用,我们对我们的评估集运行SemExp。

此外,我们评估了第3.3.2节中定义的α1 = 0.1和α2 = 0.75的方法(LowerBound, Mixed和Mean)的变化。我们的结果见表3。我们观察到,我们的L2M-Active-UpperBound方法在成功率方面明显优于所有基线,并且在SPL方面与SemExp相当。这个结果并不令人惊讶,因为我们的上限策略通常会选择最大化地图信息获取的目标,而不是选择最短路径。有趣的是,L2M-OfflineFBE优于Segm.+ANS+OracleStop,即使后者可以访问停止oracle(这导致高SPL性能)。这展示了为对象-目标导航任务访问地图预测模块的优势。此外,我们的方法对L2M-Offline-FBE的任何性能增益都是我们的目标选择策略的直接结果。关于我们的L2M变化,上限策略在所有指标中表现最好。我们注意到,我们期望混合策略和上界策略具有接近的性能结果,因为根据定义,当目标类在给定位置的概率小于α2 = 0.75时,混合策略执行上界策略。

4.3 ERROR ANALYSIS

导航任务失败的一个常见原因是决定在目标的成功半径之外停止。在最后一个实验中,我们通过定义一个oracle来研究在模型失败情况下停止决策的影响,该oracle在目标的成功距离内为我们的模型提供停止决策(OracleStop)。此外,我们探索了局部策略在失败情况下的贡献,用habitat模拟器估计的到我们选择的目标的最短路径(GtPath)代替局部策略。其余组件遵循我们建议的L2M-Active-UpperBound。本实验的评估是在795个测试集的子集上进行的,这些测试集由于起始位置与目标之间的测地线与欧氏距离比较大而较难,并且平均测地线距离比其他测试集大。表4说明了我们的发现。我们观察到所有基线的性能都有显著提高。在L2M + GtPath的情况下,性能差距表明本地策略难以达到目标,而在L2M + OracleSTOP的情况下,它表明我们的模型选择了定位良好的目标,但我们的停止决策标准未能识别目标状态。最后,L2M + GtPath + OracleSTOP的平均成功率为80%,因此建议进一步研究我们管道中的这些组件。

5 CONCLUSION

我们提出了学习映射(L2M),这是一个新的对象-目标导航框架,它利用地图未观察区域的语义预测来定义基于不确定性的目标选择目标。此外,利用模型的不确定性作为信息增益目标,对数据进行主动采样,训练语义预测器。我们研究了不同的信息获取目标,发现认知不确定性是解决这一问题最有效的方法。此外,我们提出了多个目标选择策略,并观察到使用我们预测的上置信度来平衡勘探和开采可以产生更高的性能。最后,我们的方法在目标-目标导航的Matterport3D数据集上优于竞争基线。

声明。我们的工作提高了自主机器人在新环境中导航的能力,这可以通过机器人护理等技术为医疗服务不足的人群创造积极的社会影响。然而,我们的方法有技术上的限制,可能会产生负面的社会后果。我们的语义幻觉方法不模拟分布外的场景,而是根据来自北美和欧洲家庭的数据进行训练。如果用于安全关键任务,例如在医院而不是在家中或在世界不同地区的家中进行医疗护理,我们的方法将根据训练集中由家庭结构驱动的偏差采取行动,从而产生潜在的有害结果。我们工作的另一个技术限制是我们无法对3D关系进行建模。我们将3D信息从深度投影到2D地图表示中,从而失去了3D空间背景。这对于经常放在沙发等其他物体上面的靠垫等物体来说是很重要的。失去这种上下文可能会导致我们对特定对象的成功率降低。

再现性声明。在第4节中,我们在本节的第一句话后面添加了一个脚注,其中包含到我们的GitHub存储库的链接。这个存储库包括我们的模型的代码和用于重现结果的说明。我们提供了一个Docker镜像,其中包含运行代码所需的依赖项,以及在不使用Docker的情况下安装所需依赖项的说明。我们给出了从Habitat模拟器生成初始训练数据的说明,以及使用我们的主动策略收集训练数据的说明。我们有训练和测试我们工作中描述的所有模型变体的说明。我们提供了Google Drive链接,链接到我们用来评估模型的测试集,以及MP3D场景点云,其中包括3D点云的语义类别标签。我们的每个训练模型也通过Google Drive链接共享,我们链接到该工作的作者提供的预训练的DD-PPO模型,我们在实验中利用它。此外,实现细节可以在附录的a .1节中找到,其中我们描述了实验中使用的超参数值,我们遵循的语义映射预测器的训练过程,并且我们提供了在导航集中执行我们的方法的伪代码算法。

 APPENDIX

现提供以下补充材料:

1.  实现细节。

2. 语义图预测的附加实验结果。

3. 不同主动训练策略下的逐目标导航结果。

4. 停止决策和局部策略的单对象错误分析。

5. 对我们的方法在简单和困难情节上的评价。

6. 语义地图和导航示例的附加可视化。

A.1 IMPLEMENTATION DETAILS

我们的所有UNet模型(Ronneberger等人,2015)在实现中都与ResNet18 He等人(2016)的主干网络结合,以提供输入的初始编码。每个UNet都有四个编码器和四个解码器卷积块,具有跳跃连接。模型是在PyTorch(Paszke等人,2017)框架中使用Adam优化器和学习率为0.0002进行训练的。所有实验都是在集合大小N = 4的情况下进行的。对于语义地图预测,我们接收大小为256×256的RGB和深度观测,并将裁剪和全局地图尺寸定义为h = w = 64,H = W = 384。我们使用了来自MP3D Chang等人(2017)原始40个类别中选择的27个语义类别Cs。我们使用场景的3D点云生成语义裁剪的地面真值,其中包含语义标签。我们在RTX 2080 Ti GPU的内部集群上进行了训练和测试。为了训练我们的最终模型,我们的图像分割网络首先进行了24小时的训练。然后,我们离线集合中的每个模型在单独的GPU上进行了72小时的训练。最后,每个模型在单独的GPU上对实时收集的数据进行了24小时的微调。关于导航,我们使用预测概率的0.75阈值来确定地图中目标对象的出现,并使用0.5m的停止决策距离。最后,我们每20步重新选择一个目标。算法1显示了我们的方法在目标导航过程中的执行的额外细节。

 A.2 SEMANTIC MAP PREDICTION

在这里,我们为语义地图预测器提供了额外的结果,包括对占用预测(未知、占用、空闲)的评估。本实验的设置与主论文的4.1节相同。此评估的目的是为了证明我们的方法相对于可能的非预测替代方案(如直接使用投影深度或地面投影图像分割)的优越性。为此,我们与以下基线进行比较:

•深度投影:从单个深度观察估计占用地图。

•多视图深度投影:占用地图累积在多个视图的深度观察。

•图像分割投影:我们的语义分割模型对图像进行观察,然后对结果标签进行投影。

•语义传感器投影:由模拟器提供的单视图真地语义传感器图像生成的语义地图。

•多视图语义传感器投影:与之前的基线相同,但在语义图中积累了多个视图。

我们在表5中给出了准确性、交集/联合(IoU)和F1分数的平均值。我们的两种方法都明显优于所有基线。这表明我们对未观察区域的预测可以为智能体提供更有用的信息,而不仅仅是依赖于自我情感积累的观点。在语义预测的情况下,我们的结果更引人注目,因为它们与生境模拟器的真值语义传感器进行了比较。注意,由于两个原因,多视图传感器基线远没有得到完美的分数:1)它仍然包含未观察到的区域,2)由于自上而下地图的较低空间维度的标签池(这会影响所有投影)。相比之下,我们的方法不受这个问题的影响,因为我们学习从深度投影输入预测语义。

A.3 PER OBJECT EVALUATION FOR ACTIVE TRAINING METHODS 

在本节中,我们将展示针对我们提出的L2M-Active,在主论文第4.1节中引入的不同主动训练策略(L2M-BALD, L2M-Entropy, L2M-Offline)的地图预测质量和目标-目标导航的每个对象结果。我们在图4(地图预测)和图5(对象-目标导航)中展示了六个对象的代表性子集的结果——椅子、床、垫子、柜台、沙发、桌子。在这两种情况下,我们观察到L2M-Active和基线之间的性能差距在更具挑战性的目标类(如缓冲和计数器)上更大。这表明我们的主动训练成功地选择了具有高信息价值的样本,而L2M-BALD和L2M-Entropy没有显示出比L2M-Offline有显着改善。

A.4 PER OBJECT ERROR ANALYSIS 

在这里,我们为4.3节中的实验提供了额外的结果,在4.3节中,我们研究了模型失败情况下停止决策和局部策略的影响。为此,我们将L2MActive方法与在目标成功距离内停止代理的oracle (OracleStop)结合起来,并用栖息地模拟器估计的最短路径替换本地策略,以达到我们选择的目标(GtPath)。结果如图6所示。最大的性能改进(特别是对于SPL)是在启用OracleStop时看到的,而不是在启用GtPath时,这表明一个非常常见的失败案例是识别我们已经达到了目标。也许不足为奇的是,在我们的地图预测器似乎表现不佳的类别中(参见图4),例如垫子、计数器和表,这一点也更加明显。该结果还表明,我们的方法在所有对象类别中选择了定位良好的目标,但由于局部策略中的错误或无法识别目标状态,我们经常无法达到目标。

A.5 EASY VS HARD EPISODES

评估我们提出的方法的影响的另一种方法是通过分析其相对于简单和困难剧集的性能。我们生成了1685个简单章节和795个困难章节,它们组成了主论文第4节中使用的整个测试集。困难关卡的起始位置和目标之间的测地线距离比(1.1 vs 1.05)更大,这意味着路径中存在更多障碍,平均测地线距离也更大(6:5m vs 4:5m)。结果如图7所示。值得注意的是,在硬的情况下,性能差距更高。我们积极训练的语义映射模型在训练过程中寻找困难的数据,与仅使用离线数据(L2M-Offline)或使用不同的信息增益目标(L2M-Entropy, L2M-BALD)训练的模型相比,在简单和困难的情节上都获得了更一致的高性能。

A.6 ADDITIONAL VISUALIZATIONS

最后,我们提供了一些额外的可视化。示例导航集如图8所示。图9显示了一组语义预测,而图10展示了来自集成中各个模型的预测,定性地展示了集成中语义预测的变化。

 

  • 23
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

初篱

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值