【论文翻译】SnapNav: Learning Mapless Visual Navigation with Sparse Directional Guidance and Visual Refere

最新推荐文章于 2022-11-29 00:00:00 发布

Eric_Pxz

最新推荐文章于 2022-11-29 00:00:00 发布

阅读量746

点赞数 1

分类专栏：学习随记

本文链接：https://blog.csdn.net/eric_pxz/article/details/117561366

版权

学习随记专栏收录该内容

18 篇文章 0 订阅

订阅专栏

SnapNav是一种基于深度学习的视觉导航系统，能够在未知环境中进行无地图导航，仅需少量方向指导。系统采用两级层次结构，包括负责选择合适指导的高级指挥官和执行实时控制及避障的低级控制器。通过模拟和真实数据训练，SnapNav实现了从模拟到现实世界的迁移。在与基线模型的比较中，SnapNav展示了高度自主的导航性能和在新环境中的泛化能力。

摘要由CSDN通过智能技术生成

本篇译文为方便自己再次阅读而记录，源自Google翻译和CNKI翻译助手。
习惯用语保持英文（例：agent），一些细微之处结合自己理解稍加修改，为方便阅读，译文删除了参考文献相关部分。
才疏学浅，未读懂或不确定处在[ ]内附英文原文，欢迎大家指正，有任何侵权或者不妥之处请及时告知，将尽快处理。

SnapNav：使用稀疏方向引导和视觉参考学习无地图视觉导航

摘要——基于学习的视觉导航仍然是机器人技术中的一个具有挑战性的问题，有两个首要问题：如何将学习到的策略转移到看不见的场景中，以及如何在真实机器人上部署系统。在本文中，我们提出了一种基于深度神经网络的视觉导航系统 SnapNav。与基于地图的导航或 Visual-Teach-and-Repeat (VT&R) 不同，SnapNav 仅接收环境的一些快照[snapshots]并结合方向指导以允许其执行导航任务。此外，由于有两级层次结构，SnapNav 可以轻松部署在真实机器人上：提供定向命令的高级指挥官和提供实时控制和避障的低级控制器。这也使我们能够有效地使用模拟和真实数据来训练层次结构的不同层，从而促进稳健的控制。广泛的实验结果表明，与基线模型[baseline models]相比，SnapNav 实现了高度自主的导航能力，在以前看不见的环境中实现了稀疏、无地图的导航。

一、引言

“接待处在哪里？”

“直走，看到出口左转。”

在查询到未知目的地的路线时，上述对话是一种非常常见且高效的人类间交互。这种由顺序动作和视觉参考组成的指令不仅广泛用于导航，还广泛用于各种活动，例如阅读新产品的用户指南。这种导航指令有两个突出的特点。第一个是动作和视觉观察空间之间的直接结合，它提供了关于做什么和在哪里做的具体指导。第二个值得注意的特征是固有的稀疏性，因为复杂的指令可以在视觉上重要的路点或线索处被提炼成几个关键动作，这依赖于人类在这些点之间导航的先天能力。总之，这会产生可以有效传达的准确指令。

这一观察引发了一个有趣的问题：当提供非常稀疏的指导时，机器人能否模仿人类行为在完全未知的环境中导航？这样的机器人系统将具有高效的通信能力，对陌生场景具有很强的泛化能力，有助于建立智能多智能体社会。

图1：具有稀疏方向引导的视觉导航任务的示例。机器人根据当前观察自动从提供的指导中进行选择。
图1：具有稀疏方向引导的视觉导航任务的示例。机器人根据当前观察自动从提供的指导中进行选择。

在本文中，我们提出了一个基于深度神经网络的系统，SnapNav，作为在未知环境中无地图视觉导航的实用解决方案。首先，它可以在未知环境中导航，只需几条指导。如图 1 所示，引导由快照图像和沿路径的每个转弯或终止点之前的所需动作（左转、右转、停止）组成。其次，导航系统采用两级层次结构设计，以充分利用来自不同领域的训练数据，即外观或深度观察[appearance or depth observations]、模拟或现实，并将学习到的策略直接部署到真实机器人上。

我们的贡献总结如下：
• 我们提出了一种新颖的视觉导航系统，使机器人能够在非常稀疏的引导下在未知环境中导航。
• 提出并使用不同的学习机制训练网络的两级架构，以轻松地将学习到的策略从模拟转移到现实世界。
• 我们引入了一种具有多种学习信号的新型自我监督训练方法，以获得高级指挥官[high-level commander]的有力指导。
• 我们展示了经过训练的网络可以在现实世界实验中进行导航。

二、相关工作

深度学习最近广泛应用于机器人导航，基于学习的无地图视觉导航在复杂环境中表现出卓越的性能。许多工作提出通过将环境信息编码到深度神经网络的参数中来学习最短路径策略。尽管这些技术表现出强大的导航能力，但这些agent实际上过度拟合了训练环境，无法将学到的经验应用于以前未见过的场景。无地图导航方法的另一个分支是本地导航，其中已知相对目标位置的先决条件在很大程度上将其实际应用限制在存在准确位置的应用中。

A. 视觉教学和重复 [Visual teach and repeat]
最近，研究人员引入了学习代理[learning agents]，它可以遵循与机器人技术中传统的视觉教学和重复 (VT&R) 类似的演示路径。这组解决方案需要在未知环境中导航时对环境进行简单描述，例如原始相机图像序列，或者附加的标记动作，而不是预定义的地图。其中只有 [11]，[13] 可以部署在真正的机器人上。然而，前者是用来自全能相机的大量手动标记的真实世界数据进行训练的，而后者需要对序列中的演示图像进行明确定位，这在很大程度上降低了实用性。此外，对长视频流的依赖阻碍了agent之间的有效通信。

B.基于语义的视觉导航 [Language based visual navigation]
自然语言指令作为一种极其稀疏的指导形式，也被引入到视觉导航中。虽然它模仿人类行为并且可以产生更自主的agent，但视觉语言基础的困难，即从两种完全不同的模态中关联感知，加上自然语言本身的模糊性，限制了语言引导导航的性能。其中提到的agent在指导中获取街景缩略图列表与我们的 SnapNav 类似，但仅在名为 StreetNav 的模拟工具包中学习高级导航策略。

三、任务描述

我们在本文中研究的任务类似于 [16] 中的 StreetNav，可以称为具有稀疏引导的视觉路径跟随。尽管这些研究之间存在一些相似之处，但我们专注于更面向机器人的视角。特别是，我们考虑了自主机器人实时感知和控制的挑战，并将机器人从纯模拟中带入现实。

A. 任务分解
尽管像 [10]、[16] 中那样使用单个策略网络解决整个任务很简单，但将这些系统部署到真正的机器人上并非易事。一方面，由于没有模拟器可以同时渲染逼真的相机数据并精确捕捉机器人的动态，因此无法通过单个模拟器学习现实中可部署的命令和控制策略。另一方面，手动标记真实世界数据的劳动力成本很高，并且由于缺乏探索，训练样本受限，导致很难得到稳健的控制策略。然而，通过将问题分解为高级指挥官[high level commander]和低级自主控制器[low level autonomous controller]，我们可以学习具有不同类型和数据源的子策略来优化每个子任务。更具体地说，由于引导中当前观察和快照的视觉匹配在很大程度上依赖于观察对象的外观，因此命令策略需要具有高视觉保真度的数据，但在很大程度上可以忽略机器人动力学。相反，控制策略只关注周围环境的几何形状，用于避障、机器人动力学和偶尔的命令/高级动作。因此，该策略可以更容易地在机器人模拟器中进行训练，其中机器人动力学以及深度观察都得到了精细建模。机器人还可以接触各种任意世界设置，从而实现更强大的本地导航。每个子任务将在以下部分中更具体地制定。

B. 指挥子任务[Command Sub-Task]
指挥官 $C$ 被提供了 n 对指导[guidance] { ${G_i = (S_i,m_i)|i = [1, 2, ..., n]}$ }，其中 $S_i$ 和 $m_i$ 分别代表快照[snapshots]和指导命令[guidance commands]。指导中的每个快照 $S_i$ 都记录了机器人在特定区域的第一视角RGB图像，其中特定区域表示机器人应当改变方向或者是停止移动的特定点。由于机器人只得到改变方向或终止的命令，所以引导中只有三种命令， $m_i ∈ {“右转”，“左转”，“停止”}$ ，隐含的动作是携带在一条直线上。

然后通过所有的引导和来自机载相机的当前图像观察 $O_t$ ，指挥官 C 在每个时间步 $t$ 预测高级命令 $c_t ∈ {“右转”，“前进”，“左转”，“停止”}$ 为 $c_t = C(O_t, G, h_c)$ ，其中 $h_c$ 是指挥官中 GRU 单元的隐藏状态。

C. 控制子任务[Control Sub-Task]
控制子任务被形式化为马尔可夫决策过程 (MDP)。在时间 $t \in [1, T]$ 机器人根据观察 $X_t$ 在 $a_t ∈ \mathscr{A}$ 采取行动。执行完动作后，机器人根据奖励函数收到环境给定的奖励 $r_t$ ，然后过渡到下一个观察 $X_{t+1}$ 。这个 MDP 的目标是达到最大化未来的折扣累积奖励 $\sum_{\tau=t}^T \gamma^{\tau-t} r_t$ ，其中 $\gamma$ 是折扣因子。

更具体地说，动作是机器人的控制信号， $a_t = (a_t^v, a_t^\omega) \in \mathscr{A}$ ，其中 $a_t^v$ 和 $a_t^\omega$ 分别表示时间 $t$ 时刻的预期线速度和角速度。观测量 $X_t$ 是第一人称视角的深度图像，可以在模拟器中直接访问，例如 ROS Gazebo，或在现实世界中使用现成的估计器 [17] 从 RGB 图像估计。 $t$ 时刻的奖励函数 $r_t$ 定义为：
$r_t = \left\{ \begin{array}{ll} R_{crash}, &{if \ robot \ crashes}\\ R_{reach}, &{if \ robot \ reaches \ the \ goal}\\ d_{t-1}-d_t, &{otherwise} \tag{1} \end{array} \right.$
其中 $R_{crash}$ 是碰撞的惩罚， $R_{reach}$ 是达到目标的正奖励， $d_{t−1}$ 和 $d_t$ 表示机器人与目标（下一个转折点或最终目的地）在两个连续时间步长 $t - 1$ 和 $t$ 之间的距离。

四、网络架构

图2：SnapNav 的网络架构由两个模块组成。指挥官[The commander]首先通过找到与当前观察合适的匹配来关注特定的指导指令。然后它发布一个高级命令[high level command]。控制器[The controller]根据指挥官发来的命令、估计的深度图像和先前的预测动作来预测机器人动作[a low level robot action]。此处，命令用缩写“CMD”表示，“EMB”表示线性嵌入层， $\oplus$ 是串联操作。

A. 基于注意力机制的指挥官
为了完成命令子任务，指挥官设计了卷积神经网络 (CNN) 层和线性嵌入层 (EMB) 来处理原始输入，后接硬注意力[hard attention]组件和循环策略网络。

如图 2 所示，命令的图像输入首先由 5 个卷积层编码，而命令输入到线性嵌入层，其中引导快照 $S_i$ 、命令 $m_i$ 和当前观察值 $O_t$ 分别转换为向量作为 $v^S_i = CNN_{\theta_1}(S_i)$ ， $v^m_i = EMB(m_i)$ ， $v^O_t = CNN_{\theta_1}(S_t)$ 。由于快照镜头[snapshots]和当前观察[current observation]是同一类型的数据，因此用于编码它们的 CNN 具有相同的参数 $θ_1$ 。

给定向量化的输入 $v^S_i$ 、 $v^m_i$ 和 $v^O_t$ ，目标是为了选择一个指导，它包含与当前观测最相关的快照。直观上，由于指导的稀疏性，每个时间步的命令策略应该只匹配高度相关的快照。因此，硬注意力机制优于软注意力机制，软注意力机制简单地将所有具有不同权重的指导指令相加。

硬注意力机制通常使用不可微分的离散随机层建模，因此必须使用传统反向传播以外的梯度估计方法进行优化。幸运的是，如 [16]、[19] 所示，另一种方法是采用最大池化算子的泛化来选择最佳指导指令。这绕过了不可微分问题：
$(v^S_{i*}, v^m_{i*}) = \argmax_{(v^S_{i*}, v^m_{i*})}[softmax(-||v^S_i - v^O_t||_2)]. \tag{2}$
它产生了一个可微分的模型，并且可以与其他基于梯度的模型相结合。我们后来的实验证明，通过将其他梯度估计器，例如 REINFORCE 算法与反向传播或辅助任务（即度量学习）相结合，可以大幅提高注意力机制性能。然后参与的快照向量与嵌入的命令一起由密集层处理并与编码的观察连接。最后，当所选快照和当前观察足够相似时，使用循环网络来预测下一步命令[Finally, a recurrent network is used to predict the attended command when the selected snapshot and the current observation are similar enough.]。如果相似度低，则发出默认的“前进”命令。

B. 控制器
给定来自指挥官的命令 $c_t =C(O_t, G, h_c)$ ，最后一个动作 $a_{t−1}$ 以及模拟器或深度预测网络 $X_t = D(O_t)$ 提供的深度图像，控制器根据训练有素的策略将最佳动作输出到环境中去导航。与指挥官类似，原始深度图像使用 $v^X_t = CNN_{θ_2}(X_t)$ 编码，该命令也被嵌入为 $v^c_t = EMB(c_t)$ ，后者用于预测控制器在 $a_t = π(v^X_t , v^c_t , h_π, a_{t−1})$ 处的动作，其中 $h_π$ 是控制器中的循环隐藏状态， $θ_2$ 表示深度编码 CNN 的参数。

循环网络在控制器中很重要，因为它需要精确决定何时执行左转或右转命令。这是因为高级命令与最大的视觉匹配对齐，这可能不会与所需的转折点精确对齐。这种解耦产生了更高级别的自主性，因为低级别控制器决定何时最好转弯。

五、训练

在本节中，我们分别介绍了我们对控制器和指挥官的培训机制。

A. 自我监督指挥官训练标签

在本节中，我们不依赖于手动注释的视频，而是展示了一种新颖的自我监督技术来创建伪标签。给定一个原始视频，后续帧之间的光流首先用 FlowNet [21] 估计，然后在光流高的地方（即可能的转折点）进行分割。这假设沿直线、连续轨迹收集的图像高度相似，而拐角处的图像显示高度差异。接下来，在每个片段的末尾附近随机采样快照，并与最近的 k（本文中为 k = 20）帧一起，用 {“向右转”、“向左转”、“停止”} 中随机抽取的命令标记”。值得注意的是，每个转折点之前的左转或右转命令并不是根据agent在数据收集过程中的实际动作来标注的，而是随机分配的。这是防止指挥官网络过度拟合小型真实世界数据集的关键。最后，序列中剩余的帧都被标记为“前进”命令，作为指挥官的默认预测。

请注意，只有一个具有 5k 真实序列的小数据集收集图像以微调指挥官网络。在此之前，我们使用标准导航包 ROS Navigation 自动使用从 ROS Gazebo 收集的 100k 连续图像初始化网络。

B. 训练指挥官

给定标记数据，指挥官可以用几个不同的学习信号进行优化，这些信号可以单独或联合使用。我们将在下面讨论每种方法的相对优点。
a) 命令损失：基本方法是最小化预测命令 p ∈ (0, 1)M 和伪命令标签 y ∈ {0, 1}M 的概率分布之间的交叉熵损失为：
其中 T 和 M 表示序列的长度和给定数据序列的命令的类别数。这依赖于 [16] 中提到的 argmax(·) 的次可微特性，并且可以使用标准的反向传播算法进行优化。

b) 使用 REINFORCE 学习注意力策略：我们在本文中的新颖见解是使用 REINFORCE [20] 算法来估计梯度以学习更好的注意力策略，由于可微分的 argmax 函数，该策略不能很好地训练。 REINFORCE算法的框架通常将策略学习过程建模为MDP，其中agent是commander中的注意力层（它独立于MDP进行控制策略学习）。请注意，注意力层不包含任何可训练的参数，因此注意力策略 π(ut|G, Ot; θ1) 完全依赖于由 θ1 参数化的 CNN 编码器。给定指导 G 和顺序观察 Ot，注意力策略在可能的交互序列 s1:T = O1, u1, …, OT, uT 上产生分布，其中 ut 和 Ot 是快照和观察的参与位置在时间步 t。目标是最大化沿着交互序列 s1:T 累积的奖励，因为 J(θ1) = Ep(s1:T;θ1)[?T t=1 γT−trt]。请注意，p(s1:T) 取决于注意力策略，并且每次的奖励 rt 与命令预测精度成正比。梯度是使用蒙特卡罗和 N 个学习样本来近似的： ∇θ1J

c) 度量学习：
作为 REINFORCE 学习信号的进一步替代方案，度量学习 [22] 也可以通过强制输出嵌入位于度量空间内来显式改进图像编码。这可以被视为与命令预测一起的辅助任务。与[22]类似，度量学习采用三元组损失。由于在生成伪命令标签的同时对每个视频进行分段，因此可以从片段之一中采样锚图像。然后相邻图像可以定义为正（相似）图像，而其他段中的所有图像都被标记为负（不同）图像。因此，经过 CNN 编码后，可以从每个原始图像序列中随机生成包含锚图像向量 va、k+ 正图像向量 v+ 和 k- 负图像向量 v- 的三元组，其损失函数表示为如下：

其中[·]+是铰链函数，l2(·)表示欧几里得距离，σ是一个margin，设置为1，k+和k−设置在20以下，以保证正图像的高相似度和均衡的比例正样本和负样本之间。这种损失可以通过梯度反向传播与命令损失共同最小化，因此比使用 REINFORCE 算法更方便和简单。

C. 控制策略的强化学习

控制策略纯粹是在虚拟环境中通过 DRL 学习的。为了增强控制器的泛化能力并降低代理记住环境的可能性，训练环境的几何形状每 40 集随机化一次，并且在每一集中，机器人遵循的所需路径也随机生成，如图所示图 4. 然后，为了从模拟机器人到真实机器人的稳健转移，我们在虚拟和现实世界中使用精细建模的 Turtlebot2 机器人 3，该机器人配备了 Microsoft Kinect 4 来捕获深度和 RGB 图像。请注意，SnapNav 可以使用 kinect 提供的地面实况深度，也可以使用估计的地面实况深度，仅与单目相机的系统兼容。

我们用几种不同的算法测试控制策略的学习，例如DDPG [23]、RDPG [24] 和 DRQN [25]，最后选择在我们的任务中表现出最佳性能的 DRQN。低级控制器首先使用 oracle 命令进行训练，该命令始终根据机器人在所需路径中的位置给出 1M 训练步骤的正确命令，然后使用来自学习命令策略的噪声预测命令进行微调 0.5M训练步骤。它显示了表中不同指挥官的整体性能不断提高。一、训练在单个GTX970 GPU上进行，每次运行大约需要20个小时，控制频率为5赫兹，模拟器比现实世界快4倍。

六、实验

我们进行了模型消融研究和现实世界测试，以评估所提出的 SnapNav 模型的最优性及其对现实世界场景的泛化能力。

A. 虚拟世界中的模型消融研究

消融研究中的每个模型都在类似于图 4 的随机环境中进行了 1000 次独立运行的测试，并且使用到达最终目的地的成功率 (SR) 作为指标。

a）注意力策略学习：我们比较了几种不同的模型和学习信号来训练指挥官。最基本的模型不利用注意力机制，只是简单地总结所有用于命令预测的编码指导。我们称之为 AllSum。然后，由于据报道软注意力具有与 [16] 中的 AllSum 相似的性能，我们考虑了 Sec IV-A 中描述的硬注意力模型，该模型完全使用命令损失学习信号进行了优化，称为 HardAtt。接下来，我们添加 REINFORCE (REINFORCE) 或度量学习 (Metric) 学习信号。我们还将三个学习信号组合在一起（Combined）。

从表 I 中显示的结果中，我们可以清楚地看到，使用注意力机制的指挥官明显优于 AllSum，这证明关注特定快照对于命令预测任务至关重要。与现有技术相比，我们引入 REINFORCE 算法或度量学习产生了进一步的实质性收益。

为了更好地理解这种差异的原因，图 5 展示了经过指挥官编码后的采样视频的欧几里德距离矩阵。结果表明，与 HardAtt 和 REINFORCE 相比，Metric 和 Combined 学习了一个编码器，可以更清晰地区分不同片段的图像。因此，这应该更容易在导航期间注意正确的快照。然而，根据表 I，与度量学习相比，REINFORCE 学习信号在提高指挥官的整体绩效方面更为重要。这可能是因为 REINFORCE 算法直接根据命令预测的准确性来细化注意力策略，而度量学习是在编码空间中手动引入的偏差，与导航任务并不完全相关。

b) 控制策略学习：选择合适的 DRL 方法来训练控制器对于整个系统性能至关重要。从图 6 所示的学习曲线中，我们首先通过比较 DDPG 和 RDPG 来证明将循环网络引入控制器模型的必要性，其中后者是前者的循环版本。因为在机器人到达转折点之前将命令分配给控制器，所以循环网络对于记忆最近的命令变得很重要。然后我们研究了通过利用基于价值的方法 DRQN 来限制动作和搜索空间所带来的改进。连续动作空间（线速度为[0, 0.3] m/s，角速度为π/6 π/6 rad/s）离散为三个选项，即以最大线速度直线前进和左转或右转具有最大角速度和较慢的线速度。相应地，Q-network 只需要在给定当前观察和循环网络的隐藏状态的情况下估计这些选项的 Q 值，这大大缩小了搜索空间并提高了学习效率

表 II 更深入地研究了学习到的策略。 DDPG 通过最小化向目的地相反方向移动的可能性来尝试维持预期的总回报，从而终止大多数发生碰撞的情节，因为这会立即产生负面回报。相比之下，它的循环版本 (RDPG) 实现了更高的成功率，因为它可以记住历史命令并在十字路口相应地朝着正确的方向前进。然而，连续动作的大探索空间阻碍了网络在高度随机的路口学习稳定和鲁棒的转弯行为，特别是在图 4 中突出显示的具有不常见几何形状的路口。与 DDPG 和 DRPG 不同，DRQN 在离散动作中探索空间并显示出显着的性能提升。因此，我们在实际实验中采用 DRQN 作为低级控制器的最终模型。

B. 真实世界的测试和与基线的比较
我们在真实世界场景中评估学习到的策略，以证明其在真实机器人场景中的实用性。图 7 展示了一个示例真实世界测试，它定性地检验了 SnapNav 的避障能力和对不断变化的环境的鲁棒性。

此外，提出了两个基线模型进行定量比较，如表 III 所示。 SimOnly 实现了与 [16] 类似的模型，并带有额外的深度观察，并且完全通过 DRL 在模拟器中进行训练。另一种是[26]中基于有限真实世界数据的深度VT&R模型的监督变体。前者证明了SnapNav具有增强的虚拟世界和现实世界之间的泛化能力，通过两级层次结构来实现。后者是密集引导的对应物，它验证了稀疏引导导航的有效性以及有限样本监督学习的有限泛化能力。