DynaSLAM论文笔记_dyna-slam缺点-CSDN博客

本文链接：https://blog.csdn.net/qq_42823167/article/details/121469914

DynaSLAM是一种基于ORB-SLAM2的视觉SLAM系统，它扩展了动态物体检测和背景修复功能，适用于单目、立体和RGB-D传感器。通过CNN和多视几何方法检测和分割动态物体，并对遮挡背景进行修复，生成静态地图。该系统提高了在动态环境中的鲁棒性，并在TUM数据集上进行了验证。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

DynaSLAM: Tracking, Mapping and Inpainting in Dynamic Scenes

论文笔记

+++

这是一种建立在ORB-SLAM2上的视觉SLAM系统，同时增加了动态物体检测和背景修复功能。DynaSLAM在单目、立体、RGB-D传感器下的动态场景中均有鲁棒性。作者通过使用多视几何、深度学习或者两者兼有的方法实现移动物体的检测。并且通过对动态物体遮挡的背景帧进行修复，生成静态场景地图。

主要创新点：

提出了基于ORB-SLAM2的视觉SLAM系统，通过增加运动分割方法使得其在单目、立体、RGB-D相机的动态环境中均具有稳健性。
通过对因动态物体遮挡而缺失的部分背景进行修复，生成一个静态场景地图。

完整流程图：

对于RGB-D相机而言，将RGB-D数据传入到CNN网络中对有先验动态性质的物体如行人和车辆进行逐像素的分割。作者使用多视几何在两方面提升动态内容的分割效果。首先作者对CNN输出的动态物体分割结果进行修缮；其次，将在大多数时间中保持静止的、新出现的动态对象进行标注。对于单目和双目相机，则直接将图像传入CNN中进行分割，将具有先验动态信息的物体分割出去，仅使用剩下的图像进行跟踪和建图处理。

A、使用卷积神经网络对潜在的动态物体进行分割

在MS COCO数据集上进行微调得到相应的权重模型。在实例分割部分，输入数据为m * n * 3的RGB图像，输出为m * n * L的矩阵，再将L层分类图像合并成一幅图像。

B、基于Mask RCNN和多视几何的动态物体分割

主要是针对性地处理在Mask RCNN中没有先验动态标记而具有移动性的物体的分割，例如行人手中的书等。

对于每一个输入影像帧，作者选择一些与其重叠度最大的旧影像帧（文中作者选择数量为5），将这些旧影像帧上的关键点x投影到当前帧上得到特征点x’，以及其投影深度zproj，同时生成对应的三维点X。计算关键点x，x’与三维点X形成的夹角xXx’, 记为Alpha，若Alpha大于30度则认为该点可能被挡住了，即不对其做处理。

作者观察到在TUM数据集中，夹角Alpha大于30°时的静态物体即被认为是动态的。单目、双目情况下，作者使用深度测量计得到x’对应的深度值z’，在误差允许的范围内，将其与zproj进行比较，超过一定阈值则认为该点x’对应于一个动态的物体。判断过程如图3所示。作者经过在TUM数据集上进行的测试发现深度值差阈值为0.4m时，表达式0.7Precision +0.3 Recall达到最大。

在这里插入图片描述

C、背景修复

由于我们知道上一帧和当前帧的位置，因此我们将一组以前的关键帧(实验中的最后20帧)中的RGB和深度通道投影到当前帧的动态分段中

作者将之前20关键帧的RGB以及深度图投影到当前帧上完成无动态物体的背景修复。值得注意的是，由于在其他帧中再也没有出现过当前帧中的场景或者深度信息无效造成投影失败，会导致结果中不可修复裂痕的出现。一旦出现这种情况则还需要另寻他法。图5显示了从不同TUM基准序列中得到人工合成影像。利用这些经过修复的影像可以得到满足静态场景假设的SLAM效果。