视觉slam从几何到深度学习:挑战与机遇<Ongoing Evolution of Visual SLAM from Geometry to Deep Learning: Challenge>

2018年

摘要

视觉同时定位和映射(SLAM)在机器人界已经研究了几十年。随着基于几何模型的技术日益成熟和精确,视觉SLAM已经取得了重大进展和成就。然而,在具有挑战性的环境下,它们往往是脆弱的。最近,有一种趋势是开发数据驱动的方法,例如深度学习,以解决具有更稳健性能的视觉SLAM问题。本文旨在通过提供全面的技术回顾,见证视觉SLAM技术从基于几何模型到数据驱动方法的不断发展。我们的贡献不仅是汇编了最先进的端到端深度学习SLAM工作,还深入了解了深度学习SLAM的潜在机制。为此,我们首先简要概述了基于几何模型的方法。接下来,我们确定使用深度学习的视觉深度估计是进化的起点。正是基于深度估计,使用深度学习的自我运动或姿势估计技术迅速蓬勃发展。此外,我们努力将使用深度学习的语义分割与紧急语义SLAM技术联系起来,以阐明自我运动和高水平理解的同时估计。最后,我们设想了这一研究方向的一些进一步机会。

关键词:SLAM·深度学习·深度估计·姿态估计·语义映射

导言

视觉同步定位和映射(SLAM)对于实现基于视觉的移动机器人的持续自主性至关重要,尤其是在未知环境中。它也是巨大的基于视觉的应用程序(如虚拟和增强现实)的关键使能器。在过去的几十年中,来自机器人和计算机视觉社区的研究人员一直致力于设计一些高效和通用的视觉SLAM系统。

大多数现有的视觉SLAM方法基于视觉几何显式地建模摄像机投影、运动和环境。因此,它们被称为基于模型的SLAM。根据使用图像信息的方式,它们可分为基于特征的方法[1-3]和直接方法[4-6]。具体而言,基于特征的视觉SLAM方法从图像中提取稀疏特征,如点和线,用于特征匹配和自我运动估计,而直接方法在光度一致性假设下直接使用密集(或半密集)图像像素进行运动估计。环路闭合检测和后端优化可以与这两种方法结合起来,形成一个完整的可视化SLAM系统。

在过去十年中,最先进的基于模型的视觉SLAM算法取得了巨大成功。例如,基于特征的[3]和直接[6]方法都证明了定位和映射精度的优越性能。然而,它们仍然面临许多挑战性问题,特别是在大规模环境中部署或在极端照明条件下。如今,系统鲁棒性[7]和高级(语义)认知计算感知[7,8]是视觉SLAM系统的要求很高的任务。不幸的是,仅仅依靠基于模型的方法来解决这些问题变得越来越具有挑战性。其中一个原因是,高维图像携带重要的“冗余”信息,现实世界具有复杂的外观,难以以精确的方式手动建模。

深度学习可以以端到端的方式从海量数据中自动学习有效的特征表示,不需要提取手动设计的特征[9]。通过这种方式,深度学习可以根据具体问题学习更稳健和有效的特征,并成功地证明了对一些具有挑战性的认知和感知任务的良好能力,如手写代码识别[10]、人体姿势估计[11]、触觉识别[12]和面部标志定位[13]。不可避免地,视觉SLAM从基于模型的方法演变为深度学习方法。针对视觉SLAM问题开发深度学习方法的最新尝试包括从单目图像对场景的深度估计[14]、视觉里程估计[1

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值