动态SLAM论文归纳

火柴的初心

已于 2023-07-20 15:26:11 修改

阅读量2.7k

点赞数 6

分类专栏： # 动态SLAM 文章标签： 1024程序员节人工智能 SLAM 计算机视觉

于 2022-10-24 09:53:16 首次发布

本文链接：https://blog.csdn.net/He3he3he/article/details/127485018

版权

动态SLAM 专栏收录该内容

10 篇文章 10 订阅

订阅专栏

这篇博客汇总了近年来针对动态环境的视觉SLAM技术研究，包括DyOb-SLAM、MMS_SLAM、DytanVO和DeFlowSLAM等方法。这些方法致力于解决动态目标检测、跟踪、分割和建图等问题，提高SLAM在复杂动态场景中的鲁棒性和精度。通过引入语义信息、稠密光流和深度感知，这些系统能够实现对静态和动态元素的区分，为机器人导航和环境理解提供了更高级别的能力。

摘要由CSDN通过智能技术生成

持续更新，持续更新

2022

DyOb-SLAM : Dynamic Object Tracking SLAM System

作者：Rushmian Annoy Wadud、Wei Sun
code：
视频：
paper：https://arxiv.org/pdf/2211.01941.pdf

框架：

在这里插入图片描述

问题：由于SLAM缺乏对动态目标的考虑
方法：提出了DyOb-SLAM：
- 可以定位和建图环境中的周围动态对象，以及跟踪每一帧中的动态对象。
- 借助神经网络和稠密光流算法，可以区分环境中的动态对象和静态对象
- 为静态和动态内容创建两个独立的地图。
- 对于静态特征，获得稀疏图；对于动态目标，创建全局轨迹图作为输出。
- 可以估计动态物体随时间变化的速度。
- DyOb-SLAM是DynaSLAM和VDO-SLAM的结合。
总结：
- 语义MASK-RCNN中加入了多视角
- VDO-SLAM和DyOb-SLAM都用稠密光流来估计两帧之间的光流，但是根据以前的经验，这个比较慢，在计算资源有限的情况下(难)
- 用场景流来判断运动目标的运动，相对于用光流的差来说更好，主要是远近目标
- 优化部分基本框架差不多

Multi-modal Semantic SLAM for Complex Dynamic Environments

作者：Han Wang, Jing Ying Ko and Lihua Xie, Fellow
code：https://github.com/wh200720041/MMS_SLAM
视频：https://www.youtube.com/watch?v=tmWCrredJGI
paper：https://arxiv.org/pdf/2205.04300.pdf
框架：

在这里插入图片描述

问题：
- 大多数SLAM框架目前基于静止场景的假设，然而现实世界是复杂且动态的，可能因为不能匹配到足够的正确特征导致系统失败
- 因为小尺度对象、遮挡、运动模糊语义分割结果在动态环境下不理想
方法：
- 提出了一个鲁棒、有效的多模态语义SLAM框架，旨在解决复杂且动态环境中的SLAM问题，将仅几何聚类和视觉语义信息相结合，以减少由于小尺度对象、遮挡、运动模糊导致的分割误差的影响
- 提出一种能够学习到更强大的对象特征表示，并将三思机制部署到主干网络，从而为实例分割模型带来更好的识别效果
- 对所提出的方法进行了全面的评估，结果表明，该方法能够提供可靠的定位和稠密的语义地图

DytanVO: Joint Refinement of Visual Odometry and Motion Segmentation in Dynamic Environments

作者：Shihao Shen, Yilin Cai, Wenshan Wang, Sebastian Scherer
paper：https://arxiv.org/abs/2209.08430
code：https://github.com/geniussh/dytanvo
框架：
问题
基于学习的视觉里程计(VO)算法在常见的静止场景中取得了显著的性能，主要因为高容量模型和大规模的标注数据，但在动态环境中往往会失败。语义分割主要用于在估计相机运动之前去除运动目标，但是对于未知的类别难以处理。
方法
1. 引入了一种新的基于学习的VO来平衡相机自运动、光流和运动分割之间的相互依赖关系。
2. 引入了一个迭代框架，其中自运动估计和运动分割可以在实时应用的时间限制内快速收敛。
3. 在基于学习的VO解决方案中，DytanVO在真实世界动态场景中实现了最先进的性能，而无需微调。

DeFlowSLAM: Self-Supervised Scene Motion Decomposition for Dynamic Dense SLAM

作者：Weicai Ye*, Xingyuan Yu*, Xinyue Lan, Yuhang Ming, Jinyu Li, Hujun Bao, Zhaopeng Cui and Guofeng Zhang
paper：https://arxiv.org/abs/2207.08794
code：https://github.com/zju3dv/DeFlowSLAM（目前还未传代码）

框架：

将光流分为静态光流好动态光流两个部分
在这里插入图片描述
相对于DROID-SLAM：

DROID-SLAM提出了一种稠密的BA使用估计的光流和权重去迭代更新逆深度和相机位姿的残差，但是由于动态物体的存在，如果系统未检测到他们，那么将可能导致光流估计存在歧义，针对于此，提出了一种新的场景运动表示方式，名为dual-flow，其包含相机运动的静止光流和动态物体运动的动态光流。
DROID-SLAM在训练过程中引入了大量针对于光流、深度、位姿估计的监督，在新场景中进行微调的可能性受到限制，本文的方法以自监督的方式进行训练

在这里插入图片描述

RGB-D-Inertial SLAM in Indoor Dynamic Environments with Long-term Large Occlusion

作者：Ran Long, Christian Rauch, Tianwei Zhang, Vladimir Ivan, Tin Lun Lam, Sethu Vijayakumar
paper：https://arxiv.org/abs/2303.13316
code：
框架：

解决的问题：
当相机大部分视角被多个目标长期遮挡，剩下的视觉信息不足以很好的支持定位，目前的方法动态目标只占输入的一小部分，因此可以被视为外点移除
对于预先未定义的动态目标造成长时间的大面积遮挡，存在两个挑战：
- 机器人不能够辨别从静止背景中动态目标，因为不能语义分割出来，也不能视为外点
- 即使动态目标被正确移除，静态背景上剩余的颜色、深度信息可能不足以支持准确的定位或建图。

贡献：

一种结合稀疏和稠密特征的动态目标检测方法
一种创新的BA，可以同时提供动态对象的稠密分割，跟踪相机并构建环境地图
基于RGB-D的视觉惯性SLAM方法，对于被动态目标大面积长时间遮挡鲁棒

[2023]SG-SLAM: A Real-Time RGB-D Visual SLAM Toward Dynamic Scenes With Semantic and Geometric Information

在这里插入图片描述

解决的问题：

现在以视觉为主的经典SLAM系统在某些场景仍然无法满足鲁棒性和对环境的高级理解的要求
- 基于静止场景的假设，使得系统在真实的动态场景中鲁棒性和精度都大大降低
- 构建的地图仅仅是全局一致性的度量地图，不能帮助机器人更好的理解它自身周围的环境
目前大多数方法结合了语义和几何信息，但是很大程度上依赖于语义信息，而较小程度上依赖于几何信息
- 无法处理先验目标外的动态特征

贡献：

基于RGB-D的视觉SLAM系统，该系统实时，相对于ORB_SLAM2在动态场景下具有较高的精度和鲁棒性，能够通过ROS输出语义地图
结合语义信息和几何信息的快速动态特征排除算法
- 几何信息：极线约束
- 语义信息：通过基于NCNN的目标检测网络获得

框架：

相对于ORB_SLAM2添加了两个线程：
- 目标检测线程：使用神经网络来获得二维语义信息。然后这种二维语义信息为动态特征排除提供先验信息
- 语义地图线程：结合关键帧的二维语义信息和三维点云信息，生成三维语义对象数据库。通过将 3-D 点云、3-D 语义对象和相机姿势发布到 ROS 系统来获得一个语义地图。
基本流程：
- 将RGB-D图像输入给tracking线程与目标检测线程，目标检测线程通过RGB图像进行目标识别，同时，tracking线程对输入图像进行ORB特征提取
- 提取完毕后，使用LK光流对当前帧与前一帧进行特征匹配，然后使用基于RANSAC的七点法估计F矩阵
- 当基础矩阵F计算完后，tracking线程需要等待目标检测线程的结果
- tracking线程结合极线约束和2D语义信息排除动态点，用剩余的静态点估计相机的位姿
- 产生新的关键，输出给local mapping线程与闭环线程，与ORB_SLAM2相同
- 将关键帧的深度图像给到语义地图线程，生成3D点云，然后结合2D语义信息生成3d语义目标数据库