《Cognitive Mapping and Planning for Visual Navigation》读书笔记

最新推荐文章于 2023-02-23 18:35:27 发布

Jack_Kuo

最新推荐文章于 2023-02-23 18:35:27 发布

阅读量2.3k

点赞数 2

分类专栏：论文笔记文章标签：读书笔记导航

本文链接：https://blog.csdn.net/weixin_37251044/article/details/78569428

版权

论文笔记专栏收录该内容

31 篇文章 5 订阅

订阅专栏

原文链接：Cognitive Mapping and Planning for Visual Navigation

他山之石：学界 | 谷歌提交新论文提出认知型地图构建器和规划器：同时应对视觉导航的几何和语义任务

题目：针对视觉导航的认知型地图构建器和规划器的提出

摘要：

　　我们介绍了一种用于在全新的环境中导航的神经架构。我们提出的架构可以学习根据第一人称视角构建地图（mapping）和在环境中规划（planning）到达目的地的动作序列。这个认知型地图构建器和规划器（CMP/Cognitive Mapper and Planner）基于两个关键思想：a）一个用于地图构建和规划的统一联合架构，这样使得该地图构建可由规划者的需求来驱动；b）一个可以在关于世界的观察集合不完整时能够进行规划的空间记忆。CMP 能构建一个自上而下的关于世界的可信度地图（belief map）并应用一个可微神经网络规划器来在每一个时间步骤产生下一个动作。这种关于世界的积累的可信度使得该代理（agent）能够跟踪其环境中已经访问过的区域。我们的实验表明该 CMP 的表现超过了反应策略（reactive strategies）和标准的基于记忆的架构，并且可以在全新的环境中获得良好的表现。此外，我们还表明 CMP 也能够实现特定语义的目标，比如「go to a chair」（走到椅子那里）。

1.引言

　　作为人类，当我们在陌生的环境导航时，我们会将先前相似的环境的经验带入到该环境中。我们推理自由空间，障碍和环境的拓扑结构，以常识规则和启发式导航为指导。例如，从一个房间到另一个房间，我必须先退出最初的房间; 去大楼另一端的房间，走进走廊比进入会议室更容易成功; 厨房更可能位于建筑物的开放区域而不是房间中间。本文的目标是设计一个获取这种专业知识的学习框架，并在新环境中展示机器人导航问题。
　　
　　受到这种推理的启发，最近越来越多的人开始关注更多的端到端的基于学习的方法，这些方法直接从像素到动作[44,47,63]，而无需通过显式的模型或状态估计步骤。这些方法因此享有能够从经验中学习行为的力量。但是，有必要仔细设计可以捕捉手头任务结构的体系结构。例如朱等人[63] 使用反应式无记忆香草前馈结构( reactive memory-less vanilla feed forward architectures)来解决视觉导航问题。相反，Tolman [57]的实验已经表明，即使代理（rats）在它们导航的时候以“认知地图”的形式建立了复杂的空间表征，赋予了它们快捷推理的能力，反应代理（reactive agent）依然无法做到的一些事情。
　　
　　这激发了我们解决视觉导航的认知制图和规划（CMP）方法的产生（图1）。 CMP是由a）一种空间记忆来捕获全局的布局，以及b）可以规划给定的部分信息路径规划器。建图器和规划器被整合到一个统一的架构中，可以通过利用全局的规律来训练。该建图器融合了代理观察到的输入视图中的信息，从而以自顶向下的视角产生关于世界的以度量为中心的多尺度信念。规划器运用这种多层次的以世界为中心的自我中心的信念来规划到达特定目标的路径并输出最佳的行动。这个过程在每个时间步骤重复，以传达代理人接近目标。
　　
这里写图片描述
图1：整体网络架构：我们基于学习的导航网络由建图器（mapping）和规划器（planning）组成。该建图器写入一个潜在的空间记忆，对应于一个以自我为中心的环境地图，而规划器使用这个记忆与目标一起输出导航行为。地图没有明确的监督，而监督是从学习过程中自然而然地显现出来。

　　在每个时间步骤，代理人从前一个时间步骤更新全局的信念（the belief of the world）：a）使用自我运动将信念从前一个时间步骤转换到当前的坐标系，b）结合来自当前全局视野的信息更新信念（belife）。这使得代理人随着自身移动可以逐步改善全局的模式。与之前的工作形成鲜明对比的是，我们的方法是端到端的训练，在全局上采取良好的行动。为此，我们把这个问题作为一个学习问题进行分析，而不是分析地计算信念的更新（通过经典的运动结构），并根据观察到的第一人称视角训练卷积神经网络来预测更新。我们使信念转换和更新操作具有可区分性，从而实现端到端的培训。这使得我们的方法能够适应实际室内场景中的统计模式，而不需要对绘图阶段进行任何明确的监督。
　　
　　我们的方法是让人联想到经典的导航工作，也涉及到建立地图，然后在这些地图中规划路径，以达到预期的目标位置。然而，我们的方法与传统工作不同之处在于以下重要方面：除了维护度量信念的架构选择之外，其他一切都是从数据中学习的。这导致了一些非常理想的特性：a）我们的模型可以以任务驱动的方式学习室内环境的统计规律，b）联合训练建图器和规划器使得我们的规划器对建图器的错误更加稳健，c）我们的模型可以在新的环境中以在线方式使用，而不需要预先构建的地图。
　　

2.相关工作

　　导航是移动机器人中最根本的问题之一。标准方法是将问题分解为两个单独的阶段：（1）映射环境（建图）;（2）通过构建的地图规划路径[16,36]。以这种方式分解导航允许每个阶段独立开发，但是防止每个阶段利用另一阶段的特定需求。在[56]中可以找到对建图和规划的经典方法的全面调查。
　　在导航方面，学习和DRL已被用于获取规则[3,11,12,20,34,49,55,58,63]。其中一些作品[20,34]着重于学习控制器直接从原始传感器数据中有效地操纵躲避障碍物的问题。其他人，如[8,49,55]，集中在与全状态信息[55]导航相关的规划问题，设计策略，通过情节控制[8]更快的学习，或将内存纳入DRL算法，以简化到新的环境。这项研究大部分（除了[63]）的重点是合成迷宫中的导航，这些迷宫没有什么结构。鉴于这些环境是随机生成的，规则（policy）学习了一个随机的探索策略，但在布局上没有可以利用的统计规律。我们测试了从真实建筑物中获得的布局，并且显示出我们的架构始终优于之前工作中使用的前馈和LSTM模型。
　　
　　与当代作品的关系。自从进行这项研究以来，许多其他研究视觉导航的作品也出现了。其中最值得注意的是Sadeghi和Levine [52]的研究表明模拟流动政策可以转移到现实世界.Mirowski等[45] 研究辅助监督的来源，加快RL的培训。 Bhatti等[7] 结合基于SLAM的地图来改善玩Doom的性能。 Brahmbhatt和Hays [9]使用前馈模型研究城市导航。张等人[61] 和Duan等[15] 展示如何加快相关任务的学习。 [7,15,45]显示合成迷宫的结果，只有[9,52,61]显示真实图像的结果。虽然所有这些作品都研究了视觉导航，但是它们都没有利用绘图和规划模块，也没有提出端到端的架构来共同绘制和规划，这是我们工作的重点。

3.提出问题

　　我们将机器人模型化为固定半径和高度的圆柱体，并配备安装在固定高度的视觉传感器（RGB摄像机或深度摄像机）。机器人装备有低级别的控制器，提供相对较高级别的宏观动作A（x，θ）。这些宏动作是a）保持原位，b）向左旋转θ，c）向右旋转θ，以及d）向前移动x cm，分别用a0，a1，a2和a3表示。我们进一步假设环境是一个网格世界，机器人使用它的宏动作在这个图上的节点之间移动。机器人还可以访问其精确的运动。这相当于假设了完美的视觉测距[48]，这本身是可以学习的[24]，但是我们把联合学习问题推迟到未来的工作。
　　
　　我们这个机器人要学习在以前没有遇到过的新环境中进行导航的策略。我们研究两个导航任务，一个几何任务，机器人需要去机器人坐标系中指定的目标位置（例如向前250厘米，向右300厘米）和机器人需要去感兴趣的对象（例如椅子）的语义任务。这些任务将在新的环境中执行，机器人既不能得到精确的环境地图也不能获得其拓扑结构。
　　
　　我们的导航问题定义如下。在给定的时间步 t，让我们假设机器人处于全局位置（在世界坐标系中的位置） $P_{t}$ 。在每个时间步，机器人接收环境 $\epsilon$ 的图像 $I_{t}=I(\epsilon,P_{t})$ 和在机器人的坐标系中指定的目标位置 $(x^{g}_{t},y^{g}_{t},\emptyset ^{g}_{t})$ （或语义目标）。导航问题是学习一个策略，每一步都使用这些输入（当前图像，运动和目标规范）来输出将尽可能快地将机器人传送到目标的动作。
　　
　　测试台实验。我们在Armeni等人[4]介绍的斯坦福大规模三维室内空间（S3DIS）数据集上进行实验。该数据集包括在来自3个不同的教育和办公用房屋的6个大型室内区域收集的3D扫描（以纹理网格形式）。数据集使用Matterport扫描仪收集[1]。来自2座建筑物的扫描被用于训练，并且代理人在第三座建筑物的扫描仪上进行测试。我们预处理网格来计算机器人可以穿越的空间。我们还预先计算了由机器人可以作为节点访问的一组位置组成的有向图 $G^{x}_{\theta }$ ，以及基于机器人可用于有效产生训练问题的一组动作 $A^{x}_{\theta }$ 的连通性结构。更多细节在A4。

4.建图（mapping）

　　我们描述了我们的学习网络的映射部分如何将第一人称相机图像整合到自上而下的2D环境表示中，同时学习如何利用全局上的统计结构。请注意，与分析建图系统不同，我们模型中的建图相当于一个潜在的表示。由于它被直接馈送到学习计划模块中，所以它不需要编码纯粹的自由空间表示，而是可以作为一般的空间记忆。该模型学习存储在地图内的任何信息对于生成成功的计划是最有用的。但是，为了在这一节中做具体的描述，我们假定建图器预测空间自由。
　　
这里写图片描述 图2：建图器的体系结构：建图器模块处理来自机器人的第一人称图像，并将观察结果集成到潜在记忆中，该潜在记忆对应于环境顶视图的以自我为中心的映射。映射操作没有明确的监督 - 建图器可以自由地写入内存，任何信息对规划者来说都是最有用的。除填补障碍物之外，建图器还将地图上的置信度值存储在地图中，从而可以利用学习模式对地图中未观察到的部分进行概率预测。
　　
　　建图器体系结构如图2所示。在每个时间步长 t ，我们保持机器人坐标系中自由空间 $f_{t}$ 的累积估计。 $f_{t}$ 被表示为多通道2D特征图，其以度量方式表示全局自上而下的视角中的空间。 $f_{t}$ 根据当前图像 $I_{t}$ ，来自前一时间步骤 $f_{t-1}$ 的累积估计以及最后一步与此步骤 $e_{t}$ 之间的运动估计，使用以下更新规则：
　　
$f_{t}=U(W(f_{t}-1,e_{t}) ,f^{,}_{t})$ ， $where,f^{,}_{t}=\theta (I_{t}).$ ， (1)

　　这里，W 是根据上一步 $e_{t}$ 中的运动将前一时间步 $f_{t-1}$ 的自由空间预测变换的函数；θ 是将当前图像 $I_{t}$ 作为输入的函数，并根据当前位置的环境视角输出自由空间的估计（由 $f^{,}_{t}$ 表示）。U 是从当前视点累积自由空间预测的累积预测的函数。接下来，我们描述每个函数 W，θ 和 U 是如何实现的。
　　
　　函数W是使用双线性采样（bi-linear sampling）来实现的。给出自运动，我们计算一个反向流场 $\rho (e_{t})$ 。这个反向流（backward flow）将当前自由空间图像 $f_{t}$ 中的每个像素映射到前一个自由空间 $f_{t-1}$ 图像中的对应位置。这个反向流动 ρ 可以从自我运动部分 A1 分析计算。函数W使用双线性采样来将该流场应用于来自前一帧的自由空间估计。双线性采样允许我们将梯度从 $f_{t}$ 反向传播到 $f_{t-1}$ [33]，这将使得可以对这个模型进行端到端的训练。
　　
　　函数 θ 由卷积神经网络实现。由于我们选择在机器人的坐标系中始终表示自由空间，因此网络只需输出当前坐标系中的自由空间，而不是由任意的由世界坐标系到目前为止机器人的累积运动。
　　
　　直观地说，网络可以使用语义提示（比如地板和墙壁等场景表面，普通家具对象如椅子和桌子），以及关于常见对象的大小和形状的其他学习先验，以生成自由空间估计，即使对于可能只有偏见可见。A2节中的定性结果显示了一个例子，我们提出的建图器能够预测未被观察到的空间。
　　
　　实现函数 θ 的神经网络的体系结构如图2所示。它由一个使用残差连接的控制编码器（convolutional encoder）[26]组成，并在2D图像空间中产生场景的表示。通过完全连接的层将这种表示转换成以自我中心的2D自上而下视图的形式。使用上卷积层（也具有剩余连接）对该表示进行上采样以从当前帧获得对于全局的信念的更新。
　　
　　除了根据当前的视角产生自由空间的估计 $f^{,}_{t}$ 之外，该模型也产生一个信心 $c^{,}_{t}$ 。这个估计值也被翘曲函数（warping function）W扭曲并随时间累积到 $c^_{t}$ 中。这个估计允许我们简化更新函数，并且可以被认为是在门控循环单元（gated recurrent unit）中扮演更新门的角色。更新函数 U 取得元组 $(f_{t-1},c_{t-1})$ 和 $(f^{,}_{t},c^{,}_{t})$ 并产生 $(f_{t},c_{t})$ 如下：
　　
这里写图片描述