SLAM让你如何去理解这个世界

上一届「国际计算机视觉大会(ICCV:International Conference of Computer Vision )」成为了深度学习(Deep Learning)技术的主场,但在我们宣布卷积神经网络(ConvNet)的全面胜利之前,让我们先看看计算机视觉的「非学习(non-learning)」几何方面的进展如何。同步定位与地图构建(SLAM: Simultaneous Localization and Mapping )可以说是机器人学领域最重要的算法之一,在计算机视觉和机器人研究社区完成了一些开创性的工作。本文将总结来自 ICCV 实时 SLAM 的未来研讨会的要点。


这篇文章包含了对 SLAM 的简要介绍、对研讨会上发生的事情的详细描述(全部七个演讲的总结)和会议结尾处的「以深度学习为中心的小组讨论」中的关键信息。


第一部分:为什么 SLAM 很重要?


视觉 SLAM 算法可以实时构建世界的 3D 地图,并同时追踪摄像头(手持式或增强现实设备上的头戴式或安装在机器人上)的位置和方向。SLAM 是卷积神经网络和深度学习的补充:SLAM 关注于几何问题而深度学习是感知(识别)问题的大师。如果你想要一个能走到你的冰箱面前而不撞到墙壁的机器人,那就使用 SLAM。如果你想要一个能识别冰箱中的物品的机器人,那就使用卷积神经网络。


SfM/SLAM 基本原理:一个场景的 3D 结构是根据点观察和固有的摄像头参数,从摄像头的估计的运动中计算出来的


SLAM 是 SfM(运动恢复结构:Structure from Motion)的一种实时版本。视觉 SLAM 或基于视觉的 SLAM 是 SLAM 的一种仅使用摄像头的变体,放弃了昂贵的激光传感器和惯性测量单元(IMU)。单眼 SLAM(Monocular SLAM)仅使用单个摄像头,而非单眼 SLAM(non-monocular SLAM)通常使用一个预校准的固定基线的立体相机套件。SLAM 是计算机视觉领域所谓的「几何方法(Geometric Method)」最好案例。事实上,卡内基梅隆大学(CMU)的机器人研究所将研究生水平的计算机视觉课程分成了一个「基于学习的视觉方法」和一个单独的「基于几何的视觉方法」课程。


1.运动恢复结构 vs 视觉 SLAM


运动恢复结构(SfM)和 SLAM 所解决的问题非常相似,但 SfM 传统上是以离线形式进行的,而 SLAM 则已经慢慢走向了低功耗/实时/单 RGB 相机的运行模式。今天许多运动恢复结构方面的专家都在为世界上一些最大的科技公司,帮助打造更好的地图。如果没有关于多视图几何(multiple-view geometry)、SfM 和 SLAM 的丰富知识,像谷歌地图这种成功的地图产品根本就不可能出现。典型的 SfM 问题遵循:给定一个单个室外结构(如大剧场/大体育馆)的大型照片集合,构建该结构的 3D 模型并确定每个相机的姿势。这个照片集合以离线形式处理,而且大型结构重建所需时间从几小时到几天不等。



SfM 软件:Bundler 是最成功的 SfM 开源库之一


这里给出一些流行的 SfM 相关的软件库:


  • Bundler:一个开源的运动恢复结构工具包

  • Libceres:一个非线性最小二乘极小化工具(对束调整(bundle adjustment)问题很有用)

  • Andrew Zisserman 的多视图几何 MATLAB 函数


2.视觉 SLAM vs 自动驾驶


研讨会的组织者之一 Andrew Davison 表示,尽管自动驾驶汽车是 SLAM 最重要的应用之一,但用于自动化载具的 SLAM 应该有其自己的研究轨道。(而且正如我们所见,研讨会的展示者中没有一个谈到了自动驾驶汽车。)在接下来的许多年里,独立于任何一个「圣杯级」的应用而继续在研究的角度上研究 SLAM 是有意义的。尽管在自动化载具方面存在着太多的系统级细节和技巧,但研究级的 SLAM 系统所需的不过是一个网络摄像头、算法知识和一点辛劳而已。视觉 SLAM 作为一个研究课题对数以千计的博士生的早期阶段要友好得多,他们将首先需要好几年的使用 SLAM 的实验室经验,然后才能开始考虑无人驾驶汽车等昂贵的机器人平台。



谷歌无人驾驶汽车的感知系统


第二部分:实时 SLAM 的未来


现在是时候正式总结和评论「实时 SLAM 的未来」研讨会上的演讲了。Andrew Davison 以一个名叫「基于视觉的 SALM 的十五年」的精彩历史概述开篇,他的幻灯片中还有一个介绍机器人学课程的好内容。


你也许不知道 Andrew 是谁,他是伦敦帝国学院独一无二的 Andrew Davison 教授。他最知名的成就是其 2003 年的 MonoSLAM 系统,他是第一个展示如何在单个「单眼」摄像头上构建 SLAM 系统的人,而那时候其他所有人都还认为打造 SLAM 系统需要一个立体的「双眼」摄像头套件。最近,他的研究成果已经对戴森(Dyson)等公司的发展轨迹和他们的机器人系统的能力产生了影响(如全新的 Dyson360)。


我还记得 Davidson 教授曾在 2007 年的 BMVC(英国机器视觉大会)上给出了一个视觉 SLAM 教程。让人惊讶的是,和主要的视觉大会上其它机器学习技术的纷繁成果相比,SLAM 的变化真是非常之少。过去八年里,对象识别已经经历了两三次小型变革,而今天的 SLAM 系统和其八年前的样子看起来并没有多大不同。了解 SLAM 的进展的最好方法是看最成功和最让人难忘的系统。在 Davidson 的研讨会介绍演讲中,他讨论了一些过去 10-15 年里科研界所打造的典范系统:


  • MonoSLAM

  • PTAM

  • FAB-MAP

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值