VDO-SLAM ：一种动态目标感知的视觉SLAM系统

最新推荐文章于 2024-06-02 09:42:09 发布

计算机视觉life

最新推荐文章于 2024-06-02 09:42:09 发布

阅读量7.9k

点赞数 11

分类专栏：计算机视觉深度学习视觉SLAM 文章标签：计算机视觉

本文链接：https://blog.csdn.net/electech6/article/details/108506856

版权

VDO-SLAM ：一种动态目标感知的视觉SLAM系统

（VDO-SLAM ：A Visual Dynamic Object-aware SLAM System）

论文地址：https://arxiv.org/pdf/2005.11052v2.pdf

代码： https://github.com/halajun/vdo_slam

摘要：

场景刚性假设，也称为静态环境假设，经常被使用到SLAM算法中。如今大部分算法在复杂的动态环境下运行时，会考虑通过删除移动物体或单独跟踪移动物体来简化问题。这种强假设限制了自主移动机器人系统在涉及高度动态和非结构化环境等一系列重要现实场景中应用的发展。本文介绍了一种鲁棒的动态目标感知SLAM系统（VDO-SLAM），该系统利用语义信息，可以在不具有目标形状或运动模型先验信息的条件下，对场景中的刚性物体进行运动估计。该方法将环境中的动态和静态结构集成到一个统一的估计框架中，从而实现对于机器人相机和时空地图的精确估计。我们提供了一种从运动目标的位姿变化中提取速度估计值的方法，来实现（机器人在）复杂动态环境下的导航功能。我们在大量的室内和室外真实数据集上演示了该系统的性能。结果显示，与最先进的算法相比，我们的系统实现了持续且实质性的改进。本系统已经开放了源代码。

关键词：SLAM，动态场景，目标感知，速度，跟踪，位姿变换

1.介绍

用于复杂环境下的高质量三维虚拟模型，在机器人、智能交通、监视、检查、娱乐和电影制作、自然环境的勘探和监测等等一系列领域中的应用需求正在不断增大。创建这些模型需要重复地感知环境，并使用例如同时定位和建图(SLAM)或从运动中恢复结构(SfM)等估计技术将多种传感器测量的结果融合成一致的表示方式。SLAM是一个在机器人领域成熟的技术，它可以同时估计机器人的状态并构建其环境的模型。尽管存在许多精确和高效的解决方案，但目前的SLAM算法在高度动态的环境下依然很容易失效(Cadena et al. (2016))。SLAM中处理动态物体的传统方法不是将任何与移动物体相关的传感器数据作为异常值处理，并将其从估计过程中去除(Hahnel et al. (2002, 2003);Wolf and Sukhatme (2005); Zhao et al. (2008); Bescoset al. (2018))，就是使用传统的多目标跟踪方法检测运动目标并单独跟踪它们(Wang et al. (2003); Miller and Campbell (2007); Rogerset al. (2010); Kundu et al. (2011))。前者排除了场景中动态物体的信息，只生成静态地图。后者的精度取决于相机的位姿估计，然而在复杂的动态环境中这种方法很容易失效，因为（在这种场景下）都不一定存在可靠的静态结构。随着越来越多的自主系统被应用到动态环境中，作为目前大多数开源SLAM算法和视觉里程计（VO）算法基础的场景刚性假设（或者称为静态环境假设）不断地遭受着挑战。

一个典型的SLAM系统由处理来自传感器原始数据的前端模块，和将获取的信息(原始的和隐式的高级信息)集成到概率估计框架中的后端模块组成。简单原语，例如特征的三维位置等，通常被用来描述环境（信息）。这主要是由于在SLAM估计问题中这些（特征）点很容易被检测、跟踪和集成。其他原语，如线条与平面 (de la Puente and Rodr´ıguez-Losada (2014);Kaess (2015); Henein et al. (2017); Hsiao et al. (2017))甚至是目标 (Mu et al. (2016); Salas-Moreno et al.(2013); Yang and Scherer (2019))都被考虑过用于表达更丰富的地图信息。语义信息和目标分割可以为动态目标的识别提供重要的场景先验信息 (Wang et al. (2007); G´alvez-L´opez et al. (2016))。最新的深度学习技术已经几乎可以实时检测和分割目标类别了(Girshick et al. (2018); He et al. (2017))。尽管基于视觉的目标检测和分割技术在最近有了发展，但视觉SLAM社区还没有充分利用这些信息(Nicholson et al. (2018))。（如果）要将这些信息合并到现有的几何SLAM算法中，场景中每个目标的三维模型数据集必须是可用的(Salas-Moreno et al. (2013);G´alvez-L´opez et al. (2016)) 或者前端必须显式地提供除了检测和分割之外的目标位姿信息 (Milan et al. (2016); Byravan and Fox (2017);Wohlhart and Lepetit (2015)) （这些要求）给这个问题增加了一层复杂性。对三维模型的精确性要求严重限制了它的潜在应用领域，而就我们所知，多目标跟踪和三维位姿估计仍然是一个具有挑战性的技术。这显然需要一种算法，可以利用当前深度学习算法强大的检测和分割能力，而不依赖于额外的位姿估计或目标模型先验。

在本文中，我们提出了VDO-SLAM，一种新颖的基于特征的双目/RGB-D动态SLAM系统，利用基于图像的语义信息来同时定位机器人，绘制静态和动态结构，以及跟踪场景中刚体的运动。总之，本论文的贡献有:

(提出)一种基于机器人位姿、静态和动态三维点以及目标运动的估计的统一框架的动态场景模型。
本算法可以对动态目标的位姿变化 $S E （ 3 ）$ 进行精确估计并估算出场景中目标的（移动）速度，效果优于目前最先进的算法。
(提出)一种利用语义信息跟踪运动目标的鲁棒方法，能够处理由于语义目标分割失败而导致的间接遮挡问题。
(提出)一个在复杂且有代表性的现实场景下能够被演示证明的系统

具我们所知,这是第一个完整的能够实现运动分割，动态目标追踪，估算跟随着静态和动态结构相机的位姿，估算场景中的每一个刚体的完全SE(3)位姿变化，提取速度信息和可以在现实户外场景中被演示证明的动态SLAM系统。我们证明了我们的算法在真实数据集中的性能，并展示了系统解决刚性目标运动估计的能力。本系统对目标运动和相机位姿估计的准确性都比当前最新算法在城市驾驶场景中（的结果）高出一个数量级的性能。

本文的其余部分结构如下，在下面的第2节中，我们将讨论相关的工作。在第3节和第4节，我们会讲解所提出的算法和系统。我们在第5节介绍实验配置，以及结果和评估。我们将在第6部分进行总结并提出结论。

2.相关工作

为了可以自主地执行任务，一个机器人必须能够对它所处的环境进行分析。在场景中建立机器人、静止物体和移动物体之间的时空关系是（机器人）理解场景的基础，同时定位、建图和对移动物体进行跟踪等问题是相互促进的 (Wang et al. (2007))。然而，在SLAM社区中，（研究人员认为）与静止物体相关的信息被认为是积极的，而从移动物体提取到的信息则被视为会降低算法性能。最新的SLAM系统要么将从移动物体提取到的数据视为异常值 (Hahnel et al. (2002,2003); Wolf and Sukhatme (2005); Zhao et al. (2008);Bescos et al. (2018)) 要么使用多目标跟踪技术单独跟踪它们 (Wang et al. (2003); Miller and Campbell(2007); Rogers et al. (2010); Kundu et al. (2011))很少有人会把静态和动态物体的信息处理到一个框架中，来提高估计的准确性 (Bibby and Reid (2007); Judd et al. (2018);Yang and Scherer (2019)).

最早应用在动态环境中的SLAM系统之一是由Hahnel et al. (2003)提出的。他使用了最大期望(EM)算法来更新相对于静态/动态物体的测量值概率估计，并在当它们对应于动态物体的估计值时将其删去。Alcantarilla et al. (2012)引入了密集场景流方法用于动态目标检测，并通过消除估计中对动态目标的“错误”测量，改进了定位和映射结果。 Tan et al. (2013)提出了在线关键帧更新方法，该方法能正确地检测外观和结构方面的变化特征，并在必要时丢弃它们。

Wang et al. (2007)开发了一种用于运动目标跟踪(SLAMMOT）的SLAM理论。在他们最新版本的用于运动目标的检测和跟踪的SLAM算法中，估计问题被分解成两个独立的估计器(对于运动目标的和静止物体的)，并可以实时更新两个过滤器。 Kunduet等人(Kundu et al. (2011)) 通过并行解决结构自运动(SfM)和运动目标跟踪问题，将系统输出统一为包含静态和运动目标结构和轨迹的三维动态场景图。Reddy等人(2015)利用了光流和深度计算语义运动分割。在使用语义约束改进三维重建算法之前，他们将静态物体与运动物体分离并独立重构。

Bibby and Reid’s SLAMIDE (Bibby and Reid (2007)使用了一种将可逆数据关联（包括动态位姿）统一进单一SLAM框架的广义EM算法来估计三维特征的状态(静止或动态)。Zou and Tan(2013)提出了一种多相机SLAM系统，该系统能够跟踪多个相机，并重建静态背景和移动前景点的三维位置。他们的系统利用了运动目标上的点在同一时刻共享相关相机信息的想法，可以同时估计出所有的相机位姿。 Judd et al.(2018)通过应用多运动视觉测程(MVO)多模型拟合技术估计相机和场景中刚体的全部SE(3)运动。Yang and Scherer(2019)最近的一项工作提出了一种用于单图像三维长方体检测，以及用于静态和动态环境的多视图位姿SLAM方法。不过，他们的主要目标是相机位姿和目标检测精度，没有提供其目标位姿估计的精度评估。

在过去的二十年里，计算机视觉社区对物体运动分割和多目标跟踪问题进行了大量的研究，这些都是动态场景估计（研究成果）的重要组成部分。当前最先进的运动分割算法试图将基于仿射假设的方法(Vidal and Hartley(2004))和基于对极几何的方法(Rao et al. (2010))结合成一个单一的框架，发挥出他们各自的优势((Elhamifar and Vidal (2009); Lai et al. (2016))。在最近的一种方法中，Xuet al. (2018) 提出了一种仿射模型、一种单应性模型和一个基本矩阵联合集成的多帧光谱聚类框架。(Rubino et al.， 2018)已经证明利用语义信息可以有助于处理退化运动和部分遮挡问题，提高运动分割精度。在过去的几年里，多目标跟踪算法已经从传统的基于推理/滤波的算法(Khan et al. (2005); Zhou et al. (2015))转变为数据驱动的（深度学习）方法(Milan et al. (2017); Kim et al. (2018))。目前最先进的STAM-MOT (Chu et al. (2017)) 应用空间和时间图来处理跟踪中的局部遮挡问题。为了找到目标的最优分配，该算法采用了跟踪单一目标时常用的密集搜索策略。

3.方法

在本节中，我们将展示如何在基于点跟踪的自由模型中建模刚体的运动。我们提出了一种因子图来优化相机和目标运动的估计。

在我们系统的跟踪组件中，如图4所示，被选择的用于估计相机位姿和目标运动的代价函数(见3.2节)与3D-2D重投影误差相关，并在图像上定义。由于噪声在图像平面上可以得到更好的特征，这就为相机定位提供了更准确的结果(Nist´er et al. (2004))。此外，基于这一误差项，我们提出了一种新的公式来联合优化光流以及相机位姿和目标运动，以确保对点的鲁棒跟踪(见3.2.3节)。在建图模块中，我们使用了三维误差代价函数来保证三维结构和目标运动估计的最佳结果，如3.3节所述