论文于祥读及复现——《VDO-SLAM: A Visual Dynamic Object-aware SLAM System》

原创

已于 2023-09-11 16:25:54 修改 · 1k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#论文阅读 #ubuntu #linux

于 2023-09-11 16:16:34 首次发布

文章介绍了一种名为VDO-SLAM的视觉动态对象感知SLAM系统，它结合了语义信息，实现实时定位、建图和动态物体跟踪，尤其在动态环境中的性能优于现有算法。实验结果展示了系统的鲁棒性和准确性，特别是在对象运动估计方面。

论文详读之------《一个视觉动态对象感知SLAM系统》

0. 出发点（暨摘要）
1.引言
2. 相关工作
3. 主要内容概括
4. 实验
5. 本文总结
6. 个人读后感

论文网址：https://arxiv.org/pdf/2005.11052.pdf
源码网址：https://github.com/halajun/vdo_slam

0. 出发点（暨摘要）

将实时定位和建图(SLAM)估计与动态场景建模相结合，可以极大地促进机器人在动态环境中的自主性。机器人的路径规划和避障任务依赖于对场景中动态物体运动的准确估计。本文介绍了VDO-SLAM，这是一个健壮的视觉动态对象感知SLAM系统，它利用语义信息来实现对场景中动态刚性对象的精确运动估计和跟踪，而无需事先了解对象的形状或几何模型。该方法识别和跟踪环境中的动态对象和静态结构，并将这些信息集成到一个统一的SLAM框架中。最终获得高度精确的估计机器人的轨迹和物体的完整SE(3)运动，以及环境的时空地图。该系统能够从物体的SE(3)运动中提取线速度估计，为复杂动态环境中的导航提供了重要功能。我们在许多真实的室内和室外数据集上展示了所提出的系统的性能，结果显示出与最先进的算法相比，一致性和实质性的改进。源代码的开放源代码版本是可用的。

1.引言

下图1为视觉动态对象感知SLAM系统的框架。

Input为输入模块，输入为单目或者是双目的RGB图和深度图。首先立体深度估计都方法提取深度信息。为了充分利用基于图像的语义信息，同时采用了基于学习的单目系统，获得单目相机的深度信息；
Pre-processing为预处理模块，主要进行对象实例分割和光流估计；
Tracking为追踪模块，主要工作为特征检测、相机位姿估计、动态目标追踪和目标运动估计；
Mapping为建图模块，主要进行局部批量优化和全局批量优化
Output为最终的输出。

1.1.png
本文的主要贡献为：

在机器人位姿、静态和动态3D点以及物体运动的统一估计框架中对动态场景建模的新公式；
准确估计SE(3)动态物体的运动，优于最先进的算法，以及一种提取物体在场景中的速度的方法;
一种鲁棒的方法来跟踪运动对象利用语义信息与处理间接遮挡的能力，导致语义对象分割失败;
在复杂和引人注目的现实世界场景中演示完整系统。

2. 相关工作

目前，在不同的研究目的下，对于动态场景下的SLAM的研究主要分为以下3类

2.1 探索针对动态环境的健壮SLAM

时期	方法	结果
早期	检测和删除动态场景中提取到的信息	降低SLAM性能
发展	移除动态前景+修复获重建被遮挡的静态场景
DynaSLAM	经典几何+深度学习——>检测和移除动态对象多视角信息——>修复被遮挡的背景
Light Field SLAM	通过合成孔径成像（SAI）重建被遮挡的静态场景对重建的静态背景上的特征也进行了跟踪与利用	较好的SLAM性能

所有的方法几乎都是将动态信息丢弃，但是这些被丢弃的信息对SLAM也许会有潜在的好处；
除了SLAM之外，理解动态信息对机器人的其他任务（如：规划、控制和避障）也至关重要

2.2 分别执行SLAM和运动对象跟踪(MOT)，作为传统SLAM的扩展，用于动态场景理解。

时期	方法	结果
最新	将估计问题分解为两个独立的估计器以便实时更新两个滤波器并行解决运动中的结构和运动物体的跟踪问题系统输出统一包含静态结构和运行物体轨迹的的三维动态地图	解决了动态物体的SLAM物体
随后	整合语义约束进一步赶紧3D重建
最近	基于立体的密集映射算法	具有大规模动态环境中，准确高效地重建静态背景和运动物体的优势