实例级语义SLAM: MaskFusion:对多个运动目标进行实时识别、跟踪和重构(翻译)(一)

MaskFusion是一种实时的多对象语义SLAM系统,能识别、跟踪和重构多个运动物体。通过结合Mask-RCNN的语义分割与几何分割,它能处理动态场景并生成带语义标签的3D地图。系统适用于自动驾驶、机器人和增强现实,能应对静态环境假设的限制,并改进传统SLAM系统在动态物体处理上的不足。
摘要由CSDN通过智能技术生成

最近在研究MaskFusion这个语义SLAM的框架,看了看论文,搭了搭环境,因为源码刚刚出所以研究的人比较少,我自己其中也遇到很多问题,有的解决了,有的依然困惑着,孑然前行的路是注定孤独的,分享互助才能更快的进步。想着把自己做的工作分享出来,若有一起研究的,相互交流,岂非幸事?

MaskFusion:对多个运动目标进行实时识别、跟踪和重构

Martin Runz Maud Buffier Lourdes Agapito

计算机科学系 英国伦敦大学学院

 

1:一系列3帧,说明了MaskFusion的识别、跟踪和映射能力。第一行突出显示了系统的输出:重建背景(白色)、键盘(橙色)、时钟(黄色)、运动球(蓝色)、泰迪熊(绿色)和喷雾器(棕色)。当相机在整个拍摄过程中处于运动状态时,瓶子和泰迪熊分别从第500帧和第690帧开始移动。注意,MaskFusion明确地避免重构与持有物品的人相关的几何图形。第二行显示分割神经网络生成的RGBD输入帧和语义掩码作为叠加

摘 要

我们提出了MaskFusion,一个实时的、对象感知的、语义的和动态的RGB-D SLAM系统,它超越了传统的输出静态场景的纯几何地图的系统。MaskFusion识别、分割和分配语义类标签给场景中的不同对象,同时跟踪和重构它们,即使它们独立于摄像机移动。当RGB-D摄像机扫描一个杂乱的场景时,基于图像的实例级语义分割创建语义对象掩码,从而支持实时对象识别和为世界地图创建对象级表示与之前的基于是别的SLAM系统,MaskFusion不需要已知的对象模型,它可以识别,并可以处理多个独立的运动。MaskFusion充分利用了使用实例级语义分割的优势,使语义标签能够融合到对象感知地图中,这与最近启用语义的SLAM系统执行三维级语义分割不同。我们展示了增强现实应用程序,展示了其独特的特性MaskFusion输出的地图:实例感知、语义和动态。代码将提供开源。

关键词:视觉SLAM SLAM 视觉 跟踪 建图 实时检测 增强现实 机器人

e-mail: martin.runz.15@ucl.ac.uk

e-mail: maud.buffier@gmail.com

e-mail:l.agapito@ucl.ac.uk

http://visual.cs.ucl.ac.uk/pubs/maskfusion/

以上为作者的邮箱和项目网址信息。

QQ交流群:859814367 欢迎SLAM交流学习

引 言

从移动摄像机获取的图像序列中进行3D感知是计算机视觉、机器人技术、人机交互等领域的一项基础性工作。数十年来,视觉SLAM(同步定位和地图构建)系统一直致力于同时解决摄像机在探索未知地点时的位置跟踪和创建环境3D地图的任务。它们的实时能力已经把SLAM方法变成了雄心勃勃的应用的基石,如自动驾驶、机器人导航以及增强/虚拟现实。研究视觉SLAM进展速度快,从早期作品,重构稀疏地图只有几十或几百个特性使用过滤技术[11],平行跟踪和映射方法,可以利用计算昂贵的批处理优化技术映射线程产生精确的地图与成千上万的地标[25 30],以当代的方法,可以重建完全密集的环境地图[33、34、50]。随着越来越多的SLAM增强现实应用进入到消费产品和手机应用中,这一趋势对增强现实的影响是巨大的。尽管取得了这些进步,SLAM方法及其在增强现实中的应用在两个领域中仍处于非常初级的阶段。

(a)大多数SLAM方法依赖于这样一种假设,即环境大多是静态的,移动的对象最多只能被检测为异常值并被忽略。虽然有些第一步采取非刚性的和动态场景的重建、激动人心的结果是在重建一个单一的非刚性的对象[ 12,20,32,53]或多个移动刚性物体[39],设计一个精确的和健壮的SLAM系统,可以处理任意动态和非刚性的场景仍然是一个开放的挑战。

(b)大多数SLAM系统提供的输出是一个纯粹的环境几何图。添加语义信息是相对近期[6, 8, 28,40,44]的,并且识别主要是限于少数已知的对象实例的三维模型可提前得知[6 8,40,46]每个3 D地图点划分成一组固定的语义类别没有区分对象实例[28,44]

 贡 献:

我们的方法的新颖之处在于在同一系统内朝着解决这两个限制取得进展
MaskFusion是一个实时的SLAM系统,可以在物体的层面上表现场景。它可以识别、检测、跟踪和重构多个运动的刚性对象,同时可以精确地分割每个实例并为其分配一个语义标签。我们利用联合的输出:(i)Mask- RCNN [15],这是一个强大的基于图像的实例级分割算法,可以预测80个对象类的对象类别标签,以及(ii)一种基于几何的分割算法,这将根据深度和表面法线线索生成一个对象边缘映射,以增加目标掩码中对象边界的准确性。

我们的动态SLAM框架将这些精确的对象掩码作为输入来跟踪和融合多个移动对象(以及静态背景),同时将语义图像标签传播到时间一致的3D地图标签中。使用instance-aware语义分割的主要优势在标准像素级语义分割(如大多数先前的语义SLAM系统[40 6 8 28,40,44,,46]是它提供了准确的对象掩码和分割不同的实例对象的能力,属于同一个对象类别把他们替换为(当做)单一的一个

MaskFusion相对于以前的语义SLAM系统[6、8、28、40、44、46]的额外优势是不需要场景是静态的,因此可以检测、跟踪和建图多个独立运动的物体。通过提供更丰富的地图(不仅包括背景,还包括运动物体的详细几何形状),并通过改进物体和摄像机姿态的预测和估计,维持运动物体的内部3D表示(而不是将它们视为离群值)极大地改进了整个SLAM系统。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值