Learning to Move with Affordance Maps译文

最新推荐文章于 2024-11-14 11:02:50 发布

Looho_

最新推荐文章于 2024-11-14 11:02:50 发布

阅读量514

点赞数

文章标签：自动驾驶机器学习人工智能

本文链接：https://blog.csdn.net/weixin_42037651/article/details/121739744

版权

Learning to Move with Affordance Maps

Abstract

自主探索和导航物理空间的能力几乎是任何移动自主agent的基本要求，从家用机器人吸尘器到自动驾驶车辆。传统的基于SLAM的探索和导航方法主要集中在利用场景几何，但没有对动态对象(如其他agents)或语义约束(如潮湿的地板或门口)进行建模。基于学习的RL agent是一种有吸引力的替代方案，因为它们可以合并语义和几何信息，但众所周知，它们的样本效率低下，难以泛化到新的环境，并且难以解释。在这篇文章中，我们结合了两个场景的优点和一种模块化的方法，这种方法学习了场景的空间表示，当与传统的几何规划器结合时，这种表示被训练成有效的。具体地说，我们设计了一个学习预测空间可供性地图的agent，该地图通过主动的自我监督经验收集来阐明场景的哪些部分是可导航的。与大多数假设静态世界的模拟环境不同，我们在Vizdoom模拟器中使用包含各种动态参与者和危险的大规模随机生成地图来评估我们的方法。我们表明，学习的可供性地图可以用来增强传统的探索和导航方法，提供显著的性能改进。

1 Introduce

在物理空间内探索和导航的能力几乎是任何自动移动agent的基本要求，从家用机器人吸尘器到自动驾驶车辆。传统的导航和探索方法依赖于同步定位和测绘(SLAM)方法来恢复场景几何，产生明确的几何地图作为输出。这类地图可以与经典的几何运动规划器结合使用，以进行探索和导航(例如基于图形搜索的地图)。
然而，几何地图无法捕捉环境中的动态对象，如人、车辆，甚至其他自主代理。事实上，在学习几何地图时，这种动态障碍被故意视为可以忽略的异常值。然而，自主代理必须遵循避免与动态障碍物相撞的导航策略，以确保安全操作。此外，现实世界的环境还提供了一组特定于每个agent的独特的可供性和语义约束：人类大小的agent可能可以通过特定的门，但汽车大小的agent可能不能；类似地，自行车道可能在几何上没有障碍物，但只有大多数agent才能进入。这样的语义和行为约束很难用经典的SLAM编码。
一种有前景的替代方案是探索和导航策略的端到端强化学习(RL)。这样的方法有可能联合学习探索/导航规划器以及捕获几何、语义和动态约束的内部表示。然而，这些技术面临着RL常见的众所周知的挑战，例如高样本复杂度(因为奖励信号往往是稀疏的)，难以推广到新的环境(由于过度拟合)，以及缺乏可解释性。
我们提倡一种结合了两个场景最好的方法的混合方法。我们不是端到端地学习空间表示和探索策略，而是只在“需要时”应用学习。具体地说，我们使用了现成的规划者，但用空间可供性地图来增强经典的几何地图，该地图编码了agent可以安全移动的地方。至关重要的是，可供性地图是通过自我监督的与环境的互动来学习的。例如，我们的agent可以发现，看起来潮湿的地板的空间区域是不可导航的，最近包含类似人类的视觉特征的空间区域应该被避开，并具有很大的安全边际。在一个基于探索的任务上进行评估，我们证明了基于可供性图的方法比目前基于RL的方法更具样本效率、可推广性和可解释性。
尽管我们相信我们的问题表述是相当实用和普遍的，但在物理世界和虚拟模拟器中评估都是具有挑战性的。众所周知，要在大量不同的环境中评估现实世界中的自动agent是非常困难的。此外，许多用于导航和探索的现实模拟器假设是静态环境(Wu等人，2018年；Savva等人，2017年；夏等人，2018年)。我们选择基于游戏的第一人称模拟器，用动态演员填充虚拟世界。具体地说，我们在Vizdoom(Wydmore等人，2018年)评估了探索和导航策略，Vizdoom一个流行的RL研究平台。我们证明，在探索任务中，当与经典规划师相结合时，可供性地图的表现比传统几何方法高出60%，比最先进的RL方法高出70%。此外，我们还证明，通过将自动学习和可供性地图与几何学相结合，在存在危险的情况下，导航性能最高可提高55%。然而，人类和自主的表现之间仍然存在着巨大的差距，这表明即使在相对简单的模拟世界中，这些任务也是困难的。

2 Related Work

Navigation in Classical Robotics.传统上，导航被看作是一个几何问题，分解为两部分：地图绘制和路径规划。来自相机和传感器(如激光雷达)的输入用于通过SLAM(或运动结构)技术估计世界的几何表示(Thrun等人，2005年；Cadena等人，2016年)。此几何表示用于导出可穿透性地图，对与任何推断的几何图形发生碰撞的可能性进行编码。这样的可穿越地图可以与路径规划算法(Kavraki等人，1996；Canny，1988；Lav Alle，1998)一起使用，以计算到期望目标位置的无冲突路径。导航应用程序可以基于这两个原语构建。例如，对新环境的探索可以通过对当前未知空间中的点目标进行采样、规划通向这些点目标的路径，并使用沿途的传感器测量结果逐步构建地图来进行(也称为基于前沿的探索(Y Amauchi，1997))。事实证明，这种勘探方法非常有效，甚至在静态环境中击败了最近基于RL的技术(Chen等人，2019年)，同时依赖于经典的规划(Fiorini&Shiller，1998)。
Semantics and Learning for Navigation.当潜在问题确实是几何问题时，例如，当环境是静态的，或者当可遍历性完全由几何确定时，采用纯几何方法导航是非常有效的。然而，在语义信息可以为导航提供额外提示(例如紧急出口标志)的情况下，完全几何处理可能是次优的。这些考虑促使对语义SLAM(Kuipers&Byun，1991)的研究，试图将语义与地图联系起来(Bowman等人，2017年；McCormac等人，2017年)，通过主动搜索加快地图构建(Leung等人，2008年)，或排除动态对象(Bescos等人，2018年)。
同样，最近的一些作品也研究了学习以端到端的方式解决导航任务的使用(朱等人，2017年；Gupta等人，2017年；Mirowski等人，2017年；方等人，2019年；Shrestha等人，2019年)，建立在agent可以通过与环境直接交互来自动学习语义规则的理论基础上(朱等人，2017年；Gupta等人，2017年；Mirowski等人，2017年；方等人，2019年；Shrestha等人，2019年)。语义也被用作在模拟和现实世界之间转换的中间表示(Müller等人，2018年)。虽然这种学习的应用前景看好，但过去的工作中的实验只关注与静态地图相关的语义。相反，我们调查了语义在动态环境中的作用，以及在可供性概念超越简单几何占用的场景中。
另一种最近的方法(Mirchev等人，2018年)引入了一种学习用于探索和导航的广义空间表示的方法，使用基于注意力的生成模型来重建几何观测。导航规划是在信念空间中进行的，与我们工作中使用的度量成本图(结合了语义和几何)形成了鲜明对比。
Hybrid Navigation Policies.虽然基于学习的方法利用语义线索，但训练这样的策略可能是样本低效的。这促使人们追求将学习与几何推理相结合的混合策略架构(Gupta等人，2017年；Bhatti等人，2016年)或已知的机器人动态模型(Bansal等人，2019年；Kaufmann等人，2018年；Müller等人，2018年)。我们的工作也提出了一种混合方法，但研究了学习的映射器与解析路径规划的融合。
Self-Supervised Learning.机器人领域最近的研究试图使用自我监督学习(Pinto&Gupta，2016)作为端到端基于奖励的学习的替代方案。Hadsell等人的研究成果。(2009)和Bruls等人。(2018)采用被动跨模式自我监督学习通航性(分别从立体图像到单目图像，从LiDAR到单目图像)。相反，我们通过与环境的积极互动来学习。因此，我们的工作与甘地等人的工作最相似。(2017)，尽管我们学习了针对远程路径规划的密集可逆性预测，而不是针对碰撞避免的短期预测。
Navigation in Dynamic Environments.最后，其他一些工作通过为其他agent的动力学建立显式模型来开发动态环境中导航的专门技术(Chen等人，2018年；Kretzschmar等人，2016年；Paden等人，2016年)。相反，通过将我们对可穿透性的定义推广到仅限于几何学之外，我们可以隐式地自动捕捉其他agent的动态，并与其他环境特征联合起来。

3 Approach

我们的目标是构建一个agent，它可以在充满其他动态参与者的新环境中高效地探索和导航，同时遵守环境的语义约束。我们考虑的场景是一个能够执行基本移动宏操作的移动agent。该agent配备了RGBD摄像头和某种形式的本体感觉反馈(例如，碰撞传感器、轮滑、游戏图像)。我们假设agent是使用噪声里程计进行定位的，并且深度感知也是不完美的和有噪声的。在测试时，该agent在包含未知数量的动态和环境危害的新环境中被初始化。此外，我们假设agent的确切规模和环境中实体提供的可供性的性质最初是未知的。
在这里插入图片描述
图1：我们提出的导航体系结构概述。RGBD输入xt用于预测可供性地图ˆyt，并将其转换成结合了几何和语义信息的以自我为中心的可导航性地图Mt。在所示的示例中，在怪物附近的区域中，Mt被标记为不可航行。维护当前位置在每个时间步长的运行估计，并使用该估计来更新实现安全和高效规划的全局、分配中心的可导航性Gt地图。

我们提出了一种模块化的方法来解决这个问题，采用了经典的地图构建和路径规划管道。图1显示了此管道的概述，它使用几何和语义信息构建可导航性地图，而不是仅依赖几何信息的传统方法。我们的主要贡献如图2所示，是一种通过主动利用反馈传感器生成部分标记的训练示例来预测场景的哪些部分是可导航的方法。然后，我们使用标记的样本来训练一个模型，该模型从agent的角度预测每个像素的可供性图。在评估时，来自学习模块的输出与来自深度传感器的几何信息相结合，以构建捕获语义和几何约束的以自我为中心和以分配为中心的表示。然后，通过采用传统的路径规划技术，融合后的表示可以用于探索/导航，即使在动态和危险的环境中也能实现安全移动。

3.1 Navigability Module

给定RGBD摄像机捕获的场景表示x，我们的目标是训练一个模块π，该模块为每个像素标记一个二进制可供性值，描述相应的位置是否为agent占用的有效空间，并形成一个“可导航性”y的分割地图。我们可以通过以有监督的方式训练图像分割模型来编码这种对环境的理解。然而，训练这样的模型需要一组带标签的训练图像D=[(x1，y1)，…(xn，yn)]，其中每个像素被注释以便于导航。传统上，获得这样一组标签需要Oracle进行密集注释(Cordts等人，2016年)，其成本与所标记的数据量成线性关系。这些属性通常将应用局限于由使用数百小时人工注释时间精选的大型分割数据集(Lin等人，2014；周等人，2017)捕获的域。我们通过使用自监督方法来生成部分标记的示例˜y来代替Oracle注释来解决这个问题。
在这里插入图片描述
图2：导航训练对的自我监督标签概述(˜x，˜y)。agent在环境中沿随机或计划的轨迹执行一系列漫游。从每次行走中收集的可供性信息被反投影到代理的POV中的像素级标签上，该标签来自之前的时间步长。通过对各种地图进行采样，可以收集一组视觉上和语义上不同的示例˜D，这些示例可用于训练导航模块π。此图说明了在agent接触动态危险的情况下生成的负面示例。

Self-Supervision.我们通过agent的持续交互探索以自我监督的方式生成标记的可供性数据；该算法利用RGBD观测x、来自反馈传感器的读数和随时间执行的操作历史。在每一场景中，agent被初始化在训练环境中的随机位置和方向。agent选择附近的点并尝试导航到该点。基于agent是否能够到达该点来生成标记的训练数据：agent在其尝试期间成功穿越的每个位置被标记为可导航，而不希望的位置(例如，遇到障碍物、失去牵引力、健康受损、卡住)被标记为不可导航。世界空间中的这些位置然后使用估计的摄像机内部特征被反投影到先前的图像帧中，以便获得部分分割标签(其示例如图3中所示)。没有正标签或负标签的像素被标记为未知。有关此方法在现实世界中的适用性的更详细的讨论可以在附录A.4中找到。
Dense Labels.可供性标签的反投影产生了一组密集的像素化标签，用于过去时间步长的观测。重要的是，即使没有时空输入，这也使得能够训练包含安全度的模型来考虑运动，因为动态参与者的未来位置被编码在过去的标签视图中(在附录A.3中进一步讨论)。相比之下，大多数基于RL的方法只返回单个稀疏标量奖励，这往往导致样本低效学习，可能需要数百万个样本场景(朱等人，2017年)。此外，我们生成的标签˜y是人类可解释的，形成了一个中层表示，它提高了agent所采取操作的可解释性。
Navigability Segmentation.收集的样本˜D用于训练分段网络，如UNET(Ronneberger等人，2015年)，允许将采样的知识推广到新的场景。采用基于二进制交叉熵的掩码损失函数Lmask=K⊙LBCE(ˆy，y)来确保每个示例中只有标记的、非未知点K对损失有贡献。在给定足够的训练数据的情况下，可导航性模块能够生成与ground truth可导航性非常接近的分割图，即使在以前看不到的环境中也是如此。

在这里插入图片描述
图3：通过反向投影标记的样本示例(可导航区域标记为绿色，不可导航区域标记为黄色，未知区域标记为紫色)。前三个例子显示的是负面例子，分别被标记为怪物的损害、桶的移动障碍和环境危害造成的损害。第四个展示了怪物之间的成功遍历，第五个展示了作为主动学习循环的一部分，沿着最小成本路径收集的示例。

Active Trajectory Sampling.为了进一步提高采样效率，我们可以利用模型的不确定性在采样过程中主动规划路径，以最大化沿遍历轨迹的标签熵。直观地说，许多语义上有趣的构件(如环境危害)很少见，这使得学习视觉签名很困难。在这些情况下，通过有意识地寻找这样的人工制品，采样可以变得更有效率。这可以通过首先使用随机游走收集少量(N)样本并训练种子分割模型来实现。然后，使用种子模型，我们在每个后续场景的第一步期间预测可供性图ˆy，并使用它来构建用于规划的成本图，其值与每个位置的预测不确定性(定义为预测的软最大分布在类标签上的熵)成反比。在这个空间中规划和遵循一条最小成本的路径相当于标签熵的最大化，因为agent将试图与高度不确定的区域进行最大程度的交互。一旦使用该策略主动收集了额外的n个样本，则使用到目前为止收集的所有样本的混合来重新训练模型，并且可以再次重复样本/训练循环。我们发现，主动学习进一步提高了我们的样本效率，需要更少的样本片段来学习危险和动态参与者的视觉签名(示例如图3最右侧所示)。

3.2 Map Construction

虽然一些危险只能使用语义信息来识别，但几何学提供了一种有效且可靠的方法来识别大型静态障碍物(如墙壁)周围的通航性。为了捕捉这两种类型的约束，我们在构建用于规划的投影通航成本地图M和G时，使用额外的几何信息来增强预测的语义地图。当agent在环境中移动时，观察到的深度图像被用来在每个时间步构建局部的、以自我为中心的占用图，其中只包含几何信息。通过从深度图像的中心扫描线读取深度值，投影到XY平面，并将相应的单元格标记为不可导航，即可获得几何障碍物MGt。由于agent的确切尺寸和运动能力尚不清楚，因此只有中心扫描线返回的深度值才能确定为障碍物。
Map Fusion.给定从导航模块获得的像素方式的可供性图ˆyt和局部的、以自我为中心的几何地图MGt，可以使用融合模块F(ˆyt，MGt)来组合这两个输入，以形成结合了语义和几何信息的单个局部导航代价图Mt。为此，首先使用估计的相机内部特征将分割地图ˆyt投影到2D平面，形成以自我为中心的可导航性地图Mst。被MGt标记为障碍物的单元格也被标记为在Mt内不可通过，自由空间中的剩余单元格分配的成本值与ˆyt提供的通航性置信度成反比。最后，Mt用于在每个时间步长结束时更新可导航性的全局、分配中心地图GT。

3.3 Planning

给定全局可导航性地图，路径规划可以使用A等经典算法来解决，因为所有需要的语义和几何信息都编码在地图本身中。另外，由于MT和GT都是在每个时间步长更新的，所以动态危险被视为任何其他障碍，只要以足够高的频率重新规划路径，就可以成功地避免。我们的工作与规划算法的选择无关，我们的语义图也可以用于更复杂的规划器，尽管为了简单起见，我们使用A进行评估。

4 Experiments

我们使用Vizdoom进行模拟评估，因为它允许程序生成包含各种动态行为者和环境危害形式的语义约束的大型复杂3D地图。尽管之前关于导航的工作(Savinov等人，2018年)也依赖于Vizdoom，但评估仅限于一小部分手工设计的地图，没有任何动态参与者或语义约束。我们评估了结合学习的可供性地图来处理两个困难任务的有效性：新颖的环境探索和目标导向的导航。

4.1 Experimental Setup

我们在Oblige(Apted，2017)级别生成器创建的程序化生成的Vizdoom地图中进行实验，该生成器可以构建包含独特、复杂和视觉多样性环境的训练和测试地图。生成的每个地图都很大，除了静态障碍物(如桶)和存在几何可供性不匹配的区域(如低于传感器高度但超出agent移动能力的壁架)外，还包含各种动态危险(如怪物)和环境危险(如熔岩池)。我们生成了60个训练地图和15个测试地图的集合，并根据初始勘探区域内危险的集中程度，进一步将15个测试地图归类为危险密集或危险稀疏。
Observation and Action Space.我们假设agent的RGBD相机返回一个常规的RGB图像，其视野为60◦，深度图像大致正确，该图像记录了每个像素与相机在XY平面上的2D欧几里得距离(由于Doom渲染引擎的2.5D性质)。反馈传感器返回一个标量值，该标量值对应于agent在执行前一个操作时收到的损害的大小(某些危险比其他危险更危险)。动作空间限制为三个运动基本体：向前移动、左转和右转；每个时间步只能执行一个动作。定位是不完善的，是通过里程计从噪声测量中实现的，误差约为2%。

4.2 Sample-Efficient Exploration using Affordance Maps

我们通过测量一段时间内在特定环境中观察到的总空间量(以构建的全球地图的总表面积近似)来定量评估勘探绩效。每一次评估都会在2000个时间步长后结束，或者在探测过程中总共受到100次损害后终止，以最先发生的为准。agent在接触动态危险时，每个时间步长收到4点伤害，在接触环境危险时，每一时间步收到20点伤害。
Frontier-Based Exploration.作为经典的非学习基线，我们将其与基于前沿的探索的变体进行比较(Yamuchi，1997；Dornhege&Kleiner，2013)。此方法完全依赖于几何体，使用从当前POV投影的扫描线观测MGt在每一步更新全局贴图Gt。在当前“前沿区域”内选择一个近处目标，并在地图更新时每10步重新规划一条通往该目标的路径(使用A*)。一旦已达到所选目标或确定该目标不再可达，则对新选择的目标重复该过程。尽管仅使用几何体就可以将动态角色局部化，但它们在成本图中被视为静态障碍物，依赖于频繁的重新规划以避免碰撞。
RL-Based Exploration.我们还与最先进的基于深度RL的勘探方法(Chen等人，2019年)进行了比较，该方法使用PPO(Schulman等人，2017年)进行培训，并结合了几何表示和学习表示。我们实现了(Chen等人，2019年)提出的方法的扩展变体，在3个原始输入中增加了一个额外的深度图xDt：当前的RGB观测xRGBt，小规模的自我中心Gt和大规模的自我中心Gt。我们使用与原始作者提出的相同的超参数来评估这种方法，唯一的例外是在奖励中增加了一个新的惩罚，该惩罚是根据每个时间步收到的损害量来衡量的。我们报告了最佳模型从3次训练运行(每次2M个样本)中获得的平均性能，并访问了完整的60个MAP训练集。
Affordance-Augmented Frontier Exploration.为了评估我们提出的表示方法的有效性，我们使用从可供性预测获得的语义导航性地图来扩充基于边界的方法；所有其他组件(包括目标选择和路径规划)都与基线共享。我们以自我监督的方式从60张训练地图上收集了大约10万个样本，并使用收集的数据集为50个纪元训练导航模块；采用基于ResNet-18(He等人，2016年)UNET(Ronneberger等人，2015年)的架构进行分割。从初始可见区域内随机选择插曲样本目标，并采用简单的路径规划，代理总是沿着一条直线直达目标。使用游戏损害作为反馈机制来执行反投影，负片标签的大小对应于接收到的损害的大小。在测试时，我们使用估计的相机内部函数将导航模块的输出投影到2D平面。其他实验细节在附录A.1中讨论。
在这里插入图片描述
图4：危险密集(左)和危险稀疏环境(中)中所有评估方法的勘探性能比较，绘制为随时间观察到的面积的函数。(右)通过使用不同数量的自我监督训练数据进行训练，对增强可供性的边疆勘查实现的最终勘探覆盖率进行比较。所有曲线图报告在5个测试运行中测量的平均性能，阴影区域表示测量值的范围，RL结果报告为3个训练运行中每一个最佳模型的平均性能。

在危险稀疏的环境中(图4左侧)，agent通常在前2000个时间步长内不会遇到危险，将重点放在目标选择上，而不是危险避免上。在这种情况下，使用可供性图来增强基于边界的方法并不能提供显著的改进，因为在没有语义风险的情况下，这两种方法在功能上是等效的。与之前的工作(Chen等人，2019年)一致，基于PPO的RL方法也未能超过前沿基线，这可能是由于过于强调勘探政策。如果不将全局地图的高级表示作为输入，基于RL的方法很难在较长的时间范围内进行规划，导致agent可能会重新访问它以前见过的区域。最后，我们注意到，人类在目标选择和危险避免方面都要好得多，设法探索的面积比最近的自主方法多出3倍以上。
在危险密集的环境中进行成功的探索(图4中)需要具备识别可供性限制危险的能力，以及规划安全地绕过这些危险的路径的能力。在这种情况下，使用可供性图增强基于边界的方法可以提高大约60%的性能，这是边界和随机基线之间差异的2/3以上。定性地，我们观察到，使用学习的可供性地图的agent规划的路径在观察到的危险周围留下了很大的安全边际，并且花费在几何-可供性不匹配区域的时间要少得多。通过自我监督采样，导航模块还可以了解特定于agent的移动能力，预测何时低天花板和高台阶可能会限制移动。尽管基于RL的勘探在这种情况下的表现优于前沿基线，因为它了解到接近危险不利于回报最大化，但缺乏长期规划仍会阻碍整体勘探性能。
Sample Efficiency.为了了解训练集大小对学习勘探的影响，我们在危险密集的环境中用不同数量的收集样本测量勘探性能，如图4右侧所示。在收集了多达5000个训练样本后，导航模块学会了识别动态危险，从而可以在安全裕度的情况下规划路径。随着样品采集数量的增加，勘探效果也随之提高。然而，正如人们可能预期的那样，每个额外示例提供的相对增益在一个点之后减小。定性上，我们观察到，10,000个样本提供了足够的多样性，能够准确定位常见的动态危险，而超过这一点的额外例子有助于提高对不太常见的环境危险的检测和危险边界附近的准确性。值得注意的是，即使在20倍的样本上进行了训练，基于RL的勘探在这种情况下仍然无法超过我们的方法，这表明在样本效率方面有明显的优势。

4.3 Goal-Directed Navigation using Active Affordance Map Learning

在这里插入图片描述
图5：所有评估方法的导航性能比较，绘制为成功率与每次试验允许的最大损伤量的函数(报告了5次测试的平均结果)。

在这里插入图片描述
图6：沿着采样位置最大化标签熵的主动规划轨迹的示例。(左)显示预测的承受力，(中)显示预测的置信度图，(右)显示用于规划最佳路径的成本图。

为了进一步证明基于可供性的表示法的适用性和有效性，我们设置了一系列15个导航试验，分别针对测试集中的每个地图进行一次导航试验。在每一次试验中，agent从固定的起点开始，任务是在1000个时间步长内导航到最终目标(以相对坐标指定)，同时将沿途遭受的损害降至最低。每一次试验都被设计成困难的，起点和终点之间有无数的危险和障碍，即使对熟练的人来说也是一个挑战。其他实验细节在附录A.2中讨论。
在这种情况下，我们表明，通过添加从启示地图获得的语义信息，即使在使用使用A*进行规划的简单的基于几何的方法时，也有可能显著提高导航性能。通过引入对10万个收集的样本进行训练的导航模块来生成用于规划的成本图，我们观察到总体导航成功率提高了45%，即使在大小仅为其五分之一的数据集上使用训练的模型时也观察到了25%的改善。即使将重新规划的频率提高10倍，以便可以更准确地将观察到的动态危险视为静态障碍物，基线仍然无法击败负担能力增强的变体。
此外，我们还与基于PPO的RL模型获得的结果进行了比较，该模型的训练类似于第4.2节中讨论的对应模型。为了降低长期规划的难度，我们为模型提供了一系列路点(从表现最好的人体轨迹中提取)作为额外的输入，作为局部中间目标，收敛到一个遥远的全局目标。然而，我们观察到，即使有了这组增加的输入，基于RL的方法仍然无法击败任何基于可供性的方法，这与在探索实验中观察到的结果相呼应。
我们还探讨了如何使用主动学习来进一步提高自我监督学习的效率，通过评估两个额外的模型，这些模型是在从主动规划的轨迹收集的样本上训练的。我们表明，仅使用40%的数据，采用主动数据收集的模型比仅使用随机样本训练的模型性能更好。在100K的总样本分数上，我们观察到主动抽样的模型比随机抽样的模型要好10%以上。这些结果以及与基线的比较汇总在图5中；积极规划的轨迹示例在图6中可视化。定性地，我们观察到主动轨迹采样显著提高了危险和障碍边界的时间稳定性和预测精度(如图8所示)。这些特性可实现更高效的路径规划，使agent能够安全地移动，并在已识别的危险周围获得更小的边际。

5 Discussion

我们已经描述了一种在新环境中探索和导航的可学习方法。与基于RL的策略一样，我们的方法学习在导航时利用新环境的语义、动态甚至行为属性(仅使用几何图形很难捕获这些属性)。但与传统的RL不同的是，我们的方法是通过空间可供性地图(一种经过交互训练的新表示法)使样本高效和可解释的，以便与现成的规划者一起导航。虽然概念上很简单，但我们相信，可供性地图为研究开辟了进一步的道路，并可能有助于缩小人类和自主探索性能之间的差距。例如，当前只能以隐式方式捕获移动障碍物的动态。一个自然的扩展是使这一点变得明确，要么是以动态地图的形式，要么是以利用时空线索进行更好的可供性预测的导航模块的形式。