CNN-SLAM: Real-time dense monocular SLAM with learned depth prediction
CNN-SLAM:基于学习深度预测的实时稠密单目slam
Abstract:
本文研究了如何利用深度神经网络预测对深度地图进行精确和稠密的单目重建。我们提出了一种方法,将cnn预测的稠密深度地图与直接单目SLAM获得的深度测量自然融合在一起。我们的融合方案在单眼SLAM方法容易失败的图像位置上具有深度预测的优势,例如沿着低纹理区域,反之亦然。我们证明了使用深度预测对重建的绝对尺度的估计,因此也克服了单目SLAM的主要局限性之一。最后,我们提出了一个框架来有效地融合从单帧中获得的语义标签,通过稠密SLAM,从单一视图中得到语义一致的场景重建。在两个基准数据集上的评价结果表明了该方法的鲁棒性和准确性。
一、Introduction

SfM (Structure-from-Motion)和SLAM (Simultaneous Localization and Mapping)是计算机视觉和机器人领域中一个非常活跃的研究领域,旨在通过3D和成像传感器实现三维场景重建和相机姿态估计。
用学习方法从单个图像中进行深度预测。这种办法会出现边界条纹不清晰,为了恢复模糊的深度边界,CNN预测的深度图被用作密集重建的初始猜测,并通过依赖于类似于[4]中的小基线立体匹配的直接SLAM方案依次细化。重要的是,小基线立体匹配有可能在预测的深度图像上细化边缘区域,而这正是它们往往更模糊的地方。同时,从CNN预测的深度图中获得的初始猜测可以提供绝对比例信息来驱动姿态估计,因此与单目SLAM中的现有技术相比,估计的姿势轨迹和场景重建在绝对比例方面可以明显更准确。图1,a)显示了一个例子,说明了以精确的绝对尺度进行场景重建的有用性,例如本工作中提出的比例。此外,跟踪可以变得更加强大,因为CNN预测的深度不会受到上述纯旋转问题的影响,因为它是在每一帧上单独估计的。
最近cnn的另一个相关方面是,相同的网络架构可以成功地用于不同的高维回归任务,而不仅仅是深度估计:一个典型的例子是语义分割[3,29]。我们利用这一点提出了对我们框架的扩展,该扩展使用像素级标签,将语义标签与稠密SLAM进行一致且高效的融合,从而从单个视图

最低0.47元/天 解锁文章
6718

被折叠的 条评论
为什么被折叠?



