持续更新,持续更新
- 基于视觉的移动平台运动目标检测
- [2018]Detect-SLAM_ Making Object Detection and SLAM Mutually Beneficial
- [2018]Mask-SLAM_ Robust feature-based monocular SLAM by masking using semantic segmentation
- [2019]Semantic Monocular Visual Localization and Mapping Based on Deep Learning Dynamic environment
- [2020]DOT: Dynamic Object Tracking for Visual SLAM
- [2020]The STDyn-SLAM: A stereo vision and semantic segmentation approach for SLAM in dynamic outdoor environments
- [2022]DyOb-SLAM : Dynamic Object Tracking SLAM System
- [2023]RGB-D-Inertial SLAM in Indoor Dynamic Environments with Long-term Large Occlusion
- [2023]SG-SLAM: A Real-Time RGB-D Visual SLAM Toward Dynamic Scenes With Semantic and Geometric Information
2022
DyOb-SLAM : Dynamic Object Tracking SLAM System
- 作者:Rushmian Annoy Wadud、Wei Sun
- code:
- 视频:
- paper:https://arxiv.org/pdf/2211.01941.pdf
框架:
- 问题:由于SLAM缺乏对动态目标的考虑
- 方法:提出了DyOb-SLAM:
- 可以定位和建图环境中的周围动态对象,以及跟踪每一帧中的动态对象。
- 借助神经网络和稠密光流算法,可以区分环境中的动态对象和静态对象
- 为静态和动态内容创建两个独立的地图。
- 对于静态特征,获得稀疏图;对于动态目标,创建全局轨迹图作为输出。
- 可以估计动态物体随时间变化的速度。
- DyOb-SLAM是DynaSLAM和VDO-SLAM的结合。
- 总结:
- 语义MASK-RCNN中加入了多视角
- VDO-SLAM和DyOb-SLAM都用稠密光流来估计两帧之间的光流,但是根据以前的经验,这个比较慢,在计算资源有限的情况下(难)
- 用场景流来判断运动目标的运动,相对于用光流的差来说更好,主要是远近目标
- 优化部分基本框架差不多
Multi-modal Semantic SLAM for Complex Dynamic Environments
- 作者:Han Wang, Jing Ying Ko and Lihua Xie, Fellow
- code:https://github.com/wh200720041/MMS_SLAM
- 视频:https://www.youtube.com/watch?v=tmWCrredJGI
- paper:https://arxiv.org/pdf/2205.04300.pdf
- 框架:
- 问题:
- 大多数SLAM框架目前基于静止场景的假设,然而现实世界是复杂且动态的,可能因为不能匹配到足够的正确特征导致系统失败
- 因为小尺度对象、遮挡、运动模糊语义分割结果在动态环境下不理想
- 方法:
- 提出了一个鲁棒、有效的多模态语义SLAM框架,旨在解决复杂且动态环境中的SLAM问题,将仅几何聚类和视觉语义信息相结合,以减少由于小尺度对象、遮挡、运动模糊导致的分割误差的影响
- 提出一种能够学习到更强大的对象特征表示,并将三思机制部署到主干网络,从而为实例分割模型带来更好的识别效果
- 对所提出的方法进行了全面的评估,结果表明,该方法能够提供可靠的定位和稠密的语义地图
DytanVO: Joint Refinement of Visual Odometry and Motion Segmentation in Dynamic Environments
- 作者:Shihao Shen, Yilin Cai, Wenshan Wang, Sebastian Scherer
- paper:https://arxiv.org/abs/2209.08430
- code:https://github.com/geniussh/dytanvo
- 框架:
- 问题
基于学习的视觉里程计(VO)算法在常见的静止场景中取得了显著的性能,主要因为高容量模型和大规模的标注数据,但在动态环境中往往会失败。语义分割主要用于在估计相机运动之前去除运动目标,但是对于未知的类别难以处理。 - 方法
-
引入了一种新的基于学习的VO来平衡相机自运动、光流和运动分割之间的相互依赖关系。
-
引入了一个迭代框架,其中自运动估计和运动分割可以在实时应用的时间限制内快速收敛。
-
在基于学习的VO解决方案中,DytanVO在真实世界动态场景中实现了最先进的性能,而无需微调。
-
DeFlowSLAM: Self-Supervised Scene Motion Decomposition for Dynamic Dense SLAM
- 作者:Weicai Ye*, Xingyuan Yu*, Xinyue Lan, Yuhang Ming, Jinyu Li, Hujun Bao, Zhaopeng Cui and Guofeng Zhang
- paper:https://arxiv.org/abs/2207.08794
- code:https://github.com/zju3dv/DeFlowSLAM(目前还未传代码)
框架:
将光流分为静态光流好动态光流两个部分
相对于DROID-SLAM:
- DROID-SLAM提出了一种稠密的BA使用估计的光流和权重去迭代更新逆深度和相机位姿的残差,但是由于动态物体的存在,如果系统未检测到他们,那么将可能导致光流估计存在歧义,针对于此,提出了一种新的场景运动表示方式,名为dual-flow,其包含相机运动的静止光流和动态物体运动的动态光流。
- DROID-SLAM在训练过程中引入了大量针对于光流、深度、位姿估计的监督,在新场景中进行微调的可能性受到限制,本文的方法以自监督的方式进行训练
RGB-D-Inertial SLAM in Indoor Dynamic Environments with Long-term Large Occlusion
- 作者:Ran Long, Christian Rauch, Tianwei Zhang, Vladimir Ivan, Tin Lun Lam, Sethu Vijayakumar
- paper:https://arxiv.org/abs/2303.13316
- code:
- 框架:
解决的问题: - 当相机大部分视角被多个目标长期遮挡,剩下的视觉信息不足以很好的支持定位,目前的方法动态目标只占输入的一小部分,因此可以被视为外点移除
- 对于预先未定义的动态目标造成长时间的大面积遮挡,存在两个挑战:
- 机器人不能够辨别从静止背景中动态目标,因为不能语义分割出来,也不能视为外点
- 即使动态目标被正确移除, 静态背景上剩余的颜色、深度信息可能不足以支持准确的定位或建图。
贡献:
- 一种结合稀疏和稠密特征的动态目标检测方法
- 一种创新的BA,可以同时提供动态对象的稠密分割,跟踪相机并构建环境地图
- 基于RGB-D的视觉惯性SLAM方法,对于被动态目标大面积长时间遮挡鲁棒
[2023]SG-SLAM: A Real-Time RGB-D Visual SLAM Toward Dynamic Scenes With Semantic and Geometric Information
解决的问题:
- 现在以视觉为主的经典SLAM系统在某些场景仍然无法满足鲁棒性和对环境的高级理解的要求
- 基于静止场景的假设,使得系统在真实的动态场景中鲁棒性和精度都大大降低
- 构建的地图仅仅是全局一致性的度量地图,不能帮助机器人更好的理解它自身周围的环境
- 目前大多数方法结合了语义和几何信息,但是很大程度上依赖于语义信息,而较小程度上依赖于几何信息
- 无法处理先验目标外的动态特征
贡献:
- 基于RGB-D的视觉SLAM系统,该系统实时,相对于ORB_SLAM2在动态场景下具有较高的精度和鲁棒性,能够通过ROS输出语义地图
- 结合语义信息和几何信息的快速动态特征排除算法
- 几何信息:极线约束
- 语义信息:通过基于NCNN的目标检测网络获得
框架:
-
相对于ORB_SLAM2添加了两个线程:
- 目标检测线程:使用神经网络来获得二维语义信息。然后这种二维语义信息为动态特征排除提供先验信息
- 语义地图线程 :结合关键帧的二维语义信息和三维点云信息,生成三维语义对象数据库。通过将 3-D 点云、3-D 语义对象和相机姿势发布到 ROS 系统来获得一个语义地图。
-
基本流程:
- 将RGB-D图像输入给tracking线程与目标检测线程,目标检测线程通过RGB图像进行目标识别,同时,tracking线程对输入图像进行ORB特征提取
- 提取完毕后,使用LK光流对当前帧与前一帧进行特征匹配,然后使用基于RANSAC的七点法估计F矩阵
- 当基础矩阵F计算完后,tracking线程需要等待目标检测线程的结果
- tracking线程结合极线约束和2D语义信息排除动态点,用剩余的静态点估计相机的位姿
- 产生新的关键,输出给local mapping线程与闭环线程,与ORB_SLAM2相同
- 将关键帧的深度图像给到语义地图线程,生成3D点云,然后结合2D语义信息生成3d语义目标数据库