Object-based Semantic SLAM: MID-Fusion

主要内容

利用RGB-D相机估计:

  • 相机位姿
  • 物体几何信息。每个物体维护一个octree,树中存储该物体的多种几何信息,如TSDF值。
  • 物体语义信息。属于每类物体的概率。
  • 物体运动信息。是否运动。
  • 物体位姿信息。6DoF位姿。

创新点

  • 相机和物体跟踪:使用测量不确定性加权[19]。
  • 单帧RGB图片的物体的掩膜分割:Mask R-CNN实例分割+Maskfusion的边缘精修。
  • 基于体素的物体模型:包含符号距离函数(SDF),密度,前景概率和对应的权重。
  • 单帧掩膜与现存物体模型的关联:考虑交并比(IoU)。
  • 物体在当前帧坐标系中的位姿估计:对当前帧某个物体掩膜内的像素应用ICP和光流法来估计该物体在当前帧的位姿,并丢弃当前帧该物体掩膜中残差较大的像素。

不足/未来工作

  • 该方法将人当做外点去除,即在该方法中没有跟踪人的运动。
  • 系统效率随跟踪物体的数量逐渐下降。
  • 结合本文的稠密法和基于特征的方法得到更加准确的相机位姿估计结果。

B. Xu, W. Li, D. Tzoumanikas, M. Bloesch, A. Davision, S. Leutenegger. MID-Fusion: Octree-based Object-Level Multi-Instance Dynamic SLAM. IEEE International Conference on Robotics and Automation, 5231-5237, 2019.

摘要

我们提出了一个新的多实例动态RGB-D SLAM系统使用一个物体级别基于octree的体素表示。它能够在动态环境中提供鲁棒的相机跟踪,并同时连续估计场景中任意物体的几何,语义和运动性质。对于每个即将到达的帧,我们执行实例分割来检测物体并使用几何和运动信息精修掩膜边界。与此同时,我们使用一个面向物体的跟踪方法估计每个现存运动物体的位姿并鲁棒地跟踪相机相对静态场景的位姿。基于估计的相机位姿和物体位姿,我们关联分割的掩膜和现存模型并增量地融合对应的颜色,深度,语义和前景物体概率到每个物体模型中。与现存方法不同,我们的系统是首个从单个RGB-D相机中生成物体级别动态体素地图的系统,它能够被直接用于机器人任务。我们的方法能够在CPU上以2-3Hz运行,除了实例分割部分。我们证实它的有效性在仿真和现实世界序列中。

图1. 我们系统的综述。给定RGB-D图片,我们的系统构建一个物体级别的稠密体素地图,其处理动态物体并忽略人。输入图片后,我们展示了标号的物体模型和具有颜色的重建。

1. 介绍

在SLAM中,位姿环境的地图和机器人位姿从车载传感器的数据中被同时估计。在最近几年,SLAM领域经历了快速的进步。它从稀疏SLAM[1][2]进化到稠密SLAM由于GPU增加的计算能力和深度传感器的可购性。最近,许多人开始使用深度神经网络和它们从大量训练数据中学习的能力了来提高SLAM。在SLAM中快速进化的研究,之后导致了在大量应用领域的巨大进步,例如机器人,虚拟现实(VR),和增强现实(AR)。

除了这些进步,许多工作仍然基于静态环境的假设,其中3D世界中的点一直在全局世界中维持同样的空间位置,唯一运动的物体是相机。这个假设带来了早期发展的成功,因为它缓解了地图估计和传感器位姿估计之间鸡和蛋的问题。一个相机位姿可以在一个移动坐标系和一个参考坐标系之间被估计,其基于这两张图片之间的相对变换由于相机的运动所导致。这是个基本的,但是很强的假设,允许联合概率推理(稀疏SLAM[4])或者替代的地图和位姿关系的优化(稠密SLAM[5])来解决SLAM。任何在环境中移动的物体将会被当做静态模型的外点,并且有意地被跟踪和建图所忽略。

这个理想化的设置,因此,只能处理少量动态元素,并且由于环境经常变化(特别是有人出现的时候),这种设置与许多实际应用不相符。一个能够在高度运动环境中工作的鲁棒SLAM系统,仍然是一个开放问题,我们尝试在本工作中解决它。

即使动态SLAM已经被研究了几十年[6],但是基于视觉稠密SLAM的方法最近才被探索。它们能够被分为三个主要方向。第一个方向将整个世界以非刚体的形式分解,为了包括可分解的/移动物体[7]。第二个方向致力于构建单个静态背景模型,同时忽略所有可能运动的物体,并因此提高了相机跟踪的准确率[8]-[11]。第三个方向建模动态元素通过为场景中每个可能刚体运动的物体创建一个子地图同时融合对应的信息到这些子地图中[12]-[14]。我们对第三个方向更感兴趣,因为我们相信与人类感知类似,感知地图中的实体对于感知变化环境的机器人来说将会是一个更合适的解决方案,并且该解决方案将会有更大的潜力达到有意义的地图表示。但是,大多数现存方法使用一系列面元建立地图,其在机器人任务中很难直接使用。我们知道的目前为止仅有的支持子地图体素地图的两个系统,是[13]和[15]。但是,前者被特定地设置为室外双目相机配置,并且后者只解决静态环境。这里,我们提出首个物体级别动态体素地图用于室内环境应用,其中空闲空间和每个物体模型的表面连接可以被表示。我们进一步提高了它的内存效率通过使用一个基于octree的结构。除了展示一些基于深度学习的令人满意的结果外,大多数方法[12]-[14]简单地使用来自神经网络的预测而没有在地图融合中使用太多精修。在本文中,我们整合并精修了语义预测通过融合它们到物体模型中。

本文的主要贡献被划分为四个方面。我们提出了

1)首个RGB-D多实例动态SLAM系统,使用体素表示。

2)一个更鲁棒的跟踪方法,通过使用测量不确定性的加权和为了物体跟踪的重新参数化。

3)一个整合的分割,使用几何,光度,和语义信息。

4)将语义分布和前景物体概率融合到基于体素的物体模型中。

2. 相关工作

在大多数SLAM系统中,环境被假设为静态的。为了在现实世界中解决动态环境,许多解决方案最近被提出,并且它们根据上一节描述的那样主要被分为三类。我们将在本节详细介绍和比较最后两类方法。第一个最直接的动态SLAM方法是将动态物体分割为外点,并在跟踪和重建中故意忽略它们来避免位姿估计的损坏。StaticFusion[9]使用组合相机运动残差,深度不一致性和一个正则项来执行分割。Barnes等人[10]学习分割可能运动的物体以一种自监督的方式,其被训练数据的可用性和经常错分静态物体所限制。Bescos等人[11]组合了Mask-RCNN[16]和深度不一致性检测来分割运动物体并进一步将这些区域从静态背景中分离出来。它们在动态环境中提供了比传统SLAM方法更鲁棒的方法,但是,我们的方法致力于同时跟踪和重建静态背景和场景中的动态和静态物体,同时,提供SOTA的跟踪准确率。

据我们所知,有三种方法提供了与我们类似的功能,并且能够在场景中重建多个运动物体——第三类解决动态SLAM的方法。Co-Fusion[12]分割物体通过ICP运动分割或者语义分割,然后基于ElasticFusion[17]分别跟踪物体。MaskFusion[14]分割物体使用来自Mask-RCNN的实例分割和几何边缘的组合,并跟踪物体使用和Co-Fusion相同的方法。Co-Fusion和MaskFusion都是用面元来表示地图模型,其是内存高效的,但是不能直接提供地图中的空闲空间信息,并且也没有表面连通性。DynSLAM[13]专注于室外环境,使用双目相机。相反地,我们的系统专注于有许多运动物体组成的室内环境,使用单个RGB-D相机。

关于系统成分的不同,我们的系统进一步区分于上述方法。在相机跟踪中,我们加权光度和几何项通过它们的测量不确定性,而不是如[17]中的单个权重。同时,为了对深度损失更加鲁棒,我们推导了不

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值