Point-based Semantic Monocular SLAM

最新推荐文章于 2024-02-28 16:34:48 发布

lucas1997

最新推荐文章于 2024-02-28 16:34:48 发布

阅读量259

点赞数

分类专栏： slam

本文链接：https://blog.csdn.net/lucas1997/article/details/107265392

版权

本文提出了一种结合语义信息的单目SLAM框架，旨在处理高动态环境。通过利用深度、语义标签和特征匹配精度，实现概率外点拒绝，以区分静态和动态物体。与传统方法相比，该方法在动态序列中表现出更稳定的位姿估计，同时保持了在静态序列中的良好性能。

摘要由CSDN通过智能技术生成

主要内容

在ORB-SLAM中添加直接法。
利用每帧中每个特征点的测量信息：深度测量（三角化结果），语义标号（CNN输出）和特征点匹配精度（公式(13)(14)），维护每个特征在地图中的性质：深度，语义标号，和内点率（属于静态物体的概率）。维护过程以概率方式而非简单的加权平均方式来完成。
在相机位姿估计中，只使用内点率较高（推断为静态物体）的ORB特征点。

N. Brasch, A. Bozic, J. Lallemand, F. Tombari. Semantic Monocular SLAM for Highly Dynamic Environments. IEEE/RSJ International Conference on Intelligent Robots and Systems, 393-400, 2018.

摘要

最近在单目SLAM中的提高已经能够得到在静态环境中运行的实时系统，但是在动态场景变化和运动时会失败，由于它们缺少显式动态外点处理。Brasch等人提出了一种语义 SLAM框架来解决高动态环境，组合基于特征和直接法来达到挑战环境下的鲁棒性。提出的方法利用了场景的语义信息到一个显式的概率模型中，其最大化跟踪和建图的概率来依赖那些与相机没有相对运动的场景部分。与SOTA相比，我们的算法在动态环境中展示出更稳定的可靠位姿估计，在静态序列中达到了相似表现，在Virtual KITTI和Synthia数据集上。

1. 介绍

在过去几年，对于单目SLAM领域的大量研究允许达到了之前未见到的精度，鲁棒性和速度，产生了大量在机器人和增强现实领域的新应用。与基于双目或者RGB-D的技术相比，单目SLAM算法[1]-[4]依赖更廉价的硬件，更容易标定并且在深度范围上没有限制，使得它们对于同时专注室内和室外场景的移动应用中特别地受欢迎。

单目SLAM方法可以被划分为两类。基于描述的方法[5][1]使用显式关键点描述子来寻找不同图片间的特征匹配并最小化它们之间的重投影误差。不同地，直接法[6][2][4][3]最小化光度误差基于从一张图片到另一张图片的像素密度的投影。描述和直接法有它们各自优势和缺陷，如[3]中分析的那样。特别地，描述方法对于几何噪声耕路邦，即像素位置偏移，来源于不准确的相机内参标定或者卷帘门效应，而直接法更适合用于解决光度噪声，来源于运动模糊。

然而，当前单目SLAM算法依赖周围环境是静态的假设，限制了它们在大多数真实世界场景中的应用。为了解决动态物体，它们或者在优化期间利用M-估计器（Tukey[5]，Huber[2][1][3]），或者使用基于RANSAC的方法来检测和滤除运动[7]。为了能正常工作，两种方法都需要大多数点都相对相机运动是静态的。相反地，当运动物体占据相机视野的大部分，尤其是当大多数视觉特征位于这些区域内，当前的单目SLAM方法将会失效。这是由其普遍的现象在大多数室外与驾驶相关的情境中：特别是动态物体运动缓慢或者从静止开始运动时（想象一辆车暂时停在交通灯前，如图1所示），外点的检测非常困难。没有进一步关于观测区域的信息，特别是对于单目方法，一般不太可能区分图片中的运动和静止部分。由于最近基于CNNs的场景理解和语义分割方法的进步，高层次推理可以被使用来减少图片中静止和动态部分的歧义。这时非常有趣的考虑到新的卷积结构的发展和能够高效在移动/嵌入式GPUs中运行的模型的发展[8]。

图1. 一个来自CitySpaces数据集的例子，其中一辆汽车在一个交通灯前。大多数图片区域属于暂时静止的物体，将会缓慢移动，因此导致基于运动的外点检测方法的失效。在(c)中一个语义掩膜忽略所有在潜在动态区域的关键点，并因此不能使用停下的车辆用于位姿估计。我们的方法(d)使用逐点外点估计使用深度方差并融合(1)的语义信息。红色圆圈可视化估计的外点测量，绿色圆圈是用于位姿估计的内点。

通过依赖场景中的语义信息，可能检测出潜在的动态物体而不需要显式地跟踪它们。能够分割出场景的静态部分例如大楼或者车道线，我们可以指引特征提取并匹配该部分。此外，没有依赖逐帧语义信息，我们提出一种概率模型，考虑所有帧的语义信息来估计地图点的语义。除了语义信息，我们还是用时序运动信息来推理地图点是运动的还是静止的。我们更新地图点的概率参数当有新的观测时。为了得到一个实时SLAM系统，我们设计了一种高效的具有低常数内存消耗的在线概率更新。在我们的评估中，我们展示了更稳定的结果在高动态环境中在仿真和真实数据中，同时展示了类似SOTA的表现在静态场景中。

2. 相关工作

动态物体被大多数SLAM算法看作是外点。我们提出使用语义信息来选择一组位于静态场景部分的积极特征用于更鲁棒的位姿估计，与现存语义SLAM方法专注于稠密3D重建不同。语义先验由RGB图片上训练的深度模型生成。

A. 动态SLAM

在过去，不同的策略已经被提出来解决视觉SLAM中的动态外点。在[4]中，只有深度在一些观测后收敛到具有较小方差的积极特征被用于跟踪。大量[5]的改进已经被提出来显式处理动态物体。在[7]中，一个替代的RANSAC构架被使用，其中采样被调整来分割采样点。[9]使用光流在所有特征点的流朝向中寻找聚类，并使用聚类将动态物体从静态背景中分割出去。RGB-D相机或者双目相机的使用产生了高度可靠和稠密的深度地图，在这些情形中空闲空间推理可以被用于检测动态物体。动态物体被检测如果它们移动到之前空闲的区域，并在位姿估计中被标记为外点[10]。当只有稀疏和具有噪声的深度信息可用时，空闲推理是不可能的。为了处理单目系统构架中的动态场景，最近的工作专注于多身体SfM构架。这里场景被分割为多个运动刚体和静态世界。物体实例被首先通过运动分割检测出来，然后对每个聚类，一个逐帧的变换被计算并且BA被用于有缘最终的轨迹[11]。这里，输出的质量依赖运动分割。如果运动很小，分割很差&