DSP-SLAM:具有深度形状先验的面向对象SLAM

点云PCL免费知识星球,点云论文速读。

文章:DSP-SLAM: Object Oriented SLAM with Deep Shape Priors

作者:Jingwen Wang Martin Runz Lourdes Agapito

编译:点云PCL

代码:https://github.com/JingwenWang95/DSP-SLAM

欢迎各位加入免费知识星球,获取PDF论文,欢迎转发朋友圈。文章仅做学术分享,如有侵权联系删文。未经博主同意请勿擅自转载。

论文阅读模块将分享点云处理,SLAM,三维视觉,高精地图相关的文章。公众号致力于理解三维视觉领域相关内容的干货分享,欢迎各位加入我,我们一起每天一篇文章阅读,开启分享之旅,有兴趣的可联系微信dianyunpcl@163.com。

摘要

本文提出了DSP-SLAM,这是一个面向对象的SLAM系统,它为前景对象构建了一个丰富而精确的稠密3D模型的联合地图,并用稀疏的地标点来表示背景环境。DSP-SLAM将基于特征的SLAM系统重建的三维点云作为输入,并使其具备通过稠密重建检测对象来增强其稀疏地图的能力。通过语义实例分割检测目标,并通过一种新的二阶优化算法,以特定类别的深度形状嵌入作为先验估计目标的形状和姿态。我们的对象感知捆集调整构建姿势图,以联合优化相机姿势、对象位置和特征点。DSP-SLAM可以在3种不同的输入模式下以每秒10帧的速度工作:单目、立双目或双目+激光雷达。

2cf3a7064d83893c698ac4d0308be9f9.png

DSP-SLAM构建了丰富的对象感知地图,提供了检测到的对象的完整详细形状,同时粗略地将背景表示为稀疏特征点,此图为在KITTI 00上重建的稀疏地图和相机轨迹

视频演示了DSP-SLAM在Friburg和Redwood OS数据集的单目RGB序列和KITTI里程计数据集的stereo+LiDAR序列上以几乎帧速率运行,表明它实现了高质量的全对象重建,即使是部分观测,同时保持了一致的全局地图。我们的评估显示,与最近基于深度先验的重建方法相比,物体姿态和形状重建有了改进,并减少了KITTI数据集上的相机跟踪漂移。

主要贡献

虽然DSP-SLAM不是第一个利用形状先验从图像序列进行3D重建的方法,但它在许多方面都有所创新。

首先,与之前方法的不同点是我们的地图不仅表示对象,还将背景重建为稀疏特征点,在联合因子图中对其进行优化,将基于特征的方法和对象感知SLAM(高级语义地图)的最佳特性结合起来。

其次,尽管Node-SLAM也在实时SLAM系统中纳入了形状先验知识,但它使用稠密的深度图像进行形状优化,而DSP-SLAM可以仅使用RGB单目图像流进行计算,并且每个对象只需要50个3D点即可获得准确的形状估计。最后,尽管FroDO和DSP-SLAM都可以在单目RGB设置下运行,但FroDO是一种缓慢的批量方法,需要提前获取所有帧并与它们的相机姿态关联,而DSP-SLAM是一种在线、连续的方法,可以每秒运行10帧。在物体形状和姿势估计方面,在定量和定性上改进了自动标记,这是一种最先进的基于先验知识的物体重建方法。在KITTI里程计数据集上的实验表明,通过双目+激光雷达输入,我们的联合捆集调整在轨迹估计方面比用作主干的仅具备功能的双目系统ORB-SLAM2有所改进。此外,DSP-SLAM提供了与最先进的双目、仅激光雷达和 dynamic SLAM系统相当的跟踪性能,同时提供了丰富的稠密对象重建。DSP-SLAM还通过Freiburg Cars和Redwood OS数据集上的单目输入实现了较好的定性重建结果。

a520e7bfe782c9852f7a32d137e4dc01.png

系统概述:DSP-SLAM输入单目或双目的实时图像流,推断对象mask,并输出特征点和稠密对象的联合地图,稀疏SLAM主模块提供每帧相机姿势和3D点云,在每个关键帧处,使用三维曲面一致性和渲染深度损失的组合,为每个新检测到的对象实例估计形状。DSP-SLAM可在3种不同模式下运行:单目、双目和双目+激光雷达。

主要内容

DSP-SLAM是一种根据输入序列数据实现定位和建图的方法,可重建检测对象的完整详细形状,同时将背景粗略地表示为一组稀疏的特征点。每个对象都表示为一个紧凑且可优化的向量z。DSP-SLAM的概述如图2所示。DSP-SLAM几乎实时运行(每秒10帧),并可在不同模式下运行。

稀疏SLAM框架:ORB-SLAM2用作跟踪和建图主框架,这是一种基于特征的SLAM框架,可对单目或双目序列进行操作,当跟踪线程根据对应关系以帧速率估计相机姿态时,建图线程通过重建三维地标来构建稀疏地图。

检测:我们在每个关键帧执行对象检测,共同推断2D边界框和分割mask,此外,通过检测3D边界盒获得物体姿态估计的初始估计。

数据关联:新检测对象将与现有地图对象关联,或通过对象级数据关联实例化为新对象,每个检测到的对象实例I包括2D边界框、2D的Mask、稀疏3D点云的dpeth观测值以及对象初始位姿。

基于优先级的对象重建:DSP-SLAM采用一组稀疏的3D点观测数据,这些数据可以来自重建的SLAM点云或激光雷达输入(在立体+激光雷达模式下),并优化形状和对象位姿,以最大限度地减少表面一致性和深度渲染损失。地图中已存在的对象将仅通过位姿优化更新其6-dof位姿。

46928388c10cd75019eeced7aee66cf1.png

图4:形状重建

联合因子图优化:通过捆集调整优化点特征、对象和相机姿势的联合因子图,以保持一致的地图并合并回路闭合,新对象作为节点添加到联合因子图中,其相对位姿将估计为相机对象的优化边。

实验

我们使用KITTI3D数据集上的激光雷达作为输入,与最相关的自动标记方法相比,对我们创新的基于先验的对象重建优化进行定量评估,此外,评估了我们的DSP-SLAM系统在stereo+LiDAR和KITTI里程计基准数据集上的仅有双目输入上的相机的轨迹误差,并与最先进的方法进行了比较。我们还提供了Freiburg Cars和Redwood OS数据集上纯单目输入的全SLAM系统的定性结果。

在KITTI3D上对简单和中等样本的对象长方体预测质量与自动标记进行定量比较。自动标签的结果取自他们的论文。最佳结果以粗体数字显示。

f5191431ca622a6de23ae7ae394e9491.png

形状重建和位姿估计与自动标记方法的定性比较。左:输入RGB图像。中间:带DSP-SLAM的结果 右:带自动标记的结果。

e8f3212388974d709aff8e9adca63bc2.png

各种方法的相机跟踪精度比较结果

ebc7d040ac52a007da5e2ba1067ae1c4.png

当每个对象使用不同数量的激光雷达点(N=250、50、10)时,对象重建结果。当点数从250减少到50时,没有明显的区别。当进一步降低到10时,重建质量开始下降。质量下降部位用红色圆圈标记。

a6de78bde41483c3f61f1fbf1afc35e4.png

Freiburg Cars数据集的定性结果

1b30a4f65fcf90ebd45fdb93299f66f9.png

Redwood OS椅子数据集的定性结果

a156e246420c9ef8b378bd22fe1e1f4d.png

总结

本文提出了一种新的对象感知实时SLAM系统DSP-SLAM,该系统利用深度形状先验进行对象重建,生成背景稀疏点特征和检测对象稠密形状的联合地,我们在KITTI(双目和双目+激光雷达)等具有挑战性的真实世界数据集上,甚至在单目数据集上,都显示了几乎实时的性能,我们在相机轨迹估计和形状/位姿重建方面与其他方法进行了定量比较,结果显示其性能与最先进的方法相当或更高。

资源

三维点云论文及相关应用分享

【点云论文速读】基于激光雷达的里程计及3D点云地图中的定位方法

3D目标检测:MV3D-Net

三维点云分割综述(上)

3D-MiniNet: 从点云中学习2D表示以实现快速有效的3D LIDAR语义分割(2020)

win下使用QT添加VTK插件实现点云可视化GUI

JSNet:3D点云的联合实例和语义分割

大场景三维点云的语义分割综述

PCL中outofcore模块---基于核外八叉树的大规模点云的显示

基于局部凹凸性进行目标分割

基于三维卷积神经网络的点云标记

点云的超体素(SuperVoxel)

基于超点图的大规模点云分割

更多文章可查看:点云学习历史文章大汇总

SLAM及AR相关分享

【开源方案共享】ORB-SLAM3开源啦!

【论文速读】AVP-SLAM:自动泊车系统中的语义SLAM

【点云论文速读】StructSLAM:结构化线特征SLAM

SLAM和AR综述

常用的3D深度相机

AR设备单目视觉惯导SLAM算法综述与评价

SLAM综述(4)激光与视觉融合SLAM

Kimera实时重建的语义SLAM系统

SLAM综述(3)-视觉与惯导,视觉与深度学习SLAM

易扩展的SLAM框架-OpenVSLAM

高翔:非结构化道路激光SLAM中的挑战

SLAM综述之Lidar SLAM

基于鱼眼相机的SLAM方法介绍

点击下方微信视频号可查看最新研究成果及相关开源方案的演示:

如果你对本文感兴趣,请点击“原文阅读”获取知识星球二维码,务必按照“姓名+学校/公司+研究方向”备注加入免费知识星球,免费下载pdf文档,和更多热爱分享的小伙伴一起交流吧!

以上内容如有错误请留言评论,欢迎指正交流。如有侵权,请联系删除

扫描二维码

                   关注我们

让我们一起分享一起学习吧!期待有想法,乐于分享的小伙伴加入免费星球注入爱分享的新鲜活力。分享的主题包含但不限于三维视觉,点云,高精地图,自动驾驶,以及机器人等相关的领域。

分享及合作:群主微信“920177957”(需要按要求备注) 联系邮箱:dianyunpcl@163.com,欢迎企业来联系公众号展开合作。

点一下“在看”你会更好看耶

143ec41580dd35d3f1993bdf3bc890ef.gif

  • 3
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
LSD-SLAM是一种大规模直接单目SLAM算法,它是在2013年由扬·恩格尔斯等人提出的。该算法的目标是实现在没有任何先验知识或环境特征的情况下,通过单个摄像头从连续的图像序列中建立和跟踪三维地图,并且能够同时确定相机的姿态。 LSD-SLAM的核心思想是利用摄像头的像素强度信息进行定位和建图,而不依赖于传统的特征点提取和匹配。它通过高斯金字塔和灰度差分技术来提取特征,并使用稀疏数据库存储和匹配这些特征,以实现实时的建图和定位。 在LSD-SLAM中,首先需要对图像进行预处理,包括降噪和创建高斯金字塔。然后,通过计算图像中相邻帧之间的灰度差分,得到特征点的深度信息。通过对这些深度信息进行尺度一致性检查和相机姿态估计,可以建立起相机的轨迹和三维地图。 LSD-SLAM的优点之一是其能够在大规模环境下进行建图,且对于纹理较弱的区域也能较好地定位。此外,LSD-SLAM具有较低的计算复杂度,能够实时运行,适用于移动机器人、增强现实和无人驾驶等领域。 然而,LSD-SLAM也存在一些限制,如对于场景中出现大运动或快速变化的情况,其定位和建图的精度可能会下降。此外,它对于镜头畸变和光照变化也较为敏感。 总结来说,LSD-SLAM是一种利用单个摄像头进行大规模建图和定位的算法。它通过直接使用图像的像素强度信息,不依赖于传统特征点的提取和匹配。尽管LSD-SLAM具有优点和限制,但其在许多实际应用中具有潜在的价值和广阔的应用前景。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

点云PCL公众号博客

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值