论文粗翻《视觉SLAM综述：从传统到语义》（An Overview on Visual SLAM: From Tradition to Semantic）

尤齐

已于 2023-07-17 21:59:09 修改

阅读量1.7k

点赞数 5

文章标签：深度学习机器学习人工智能

于 2022-09-04 09:26:19 首次发布

原文链接：https://www.mdpi.com/2072-4292/14/13/3010

版权

2022

摘要

视觉SLAM（VSLAM）由于其传感器成本低、易于与其他传感器融合、环境信息更丰富等优势而得到迅速发展。传统的基于视觉的 SLAM 研究取得了许多成就，但在具有挑战性的环境中可能无法取得预期的结果。深度学习推动了计算机视觉的发展，深度学习与SLAM的结合越来越受到关注。语义信息作为高级环境信息，可以使机器人更好地了解周围环境。本文从传统VSLAM和语义VSLAM结合深度学习两个方面介绍了VSLAM技术的发展。对于传统的VSLAM，我们详细总结了间接和直接方法的优缺点，并给出了一些经典的VSLAM开源算法。此外，我们专注于基于深度学习的语义 VSLAM 的开发。从典型的神经网络 CNN 和 RNN 开始，我们详细总结了 VSLAM 系统的神经网络改进。之后，我们重点介绍目标检测和语义分割对 VSLAM 语义信息引入的帮助。我们相信，未来智能时代的发展离不开语义技术的助力。将深度学习引入VSLAM系统提供语义信息，可以帮助机器人更好地感知周围环境，为人们提供更高层次的帮助。

关键词：SLAM，深度学习，神经网络，计算机视觉，语义，智能时代。

1. Introduction

人们需要移动机器人自己完成一些任务，这就需要机器人能够适应陌生的环境。因此，能够在陌生环境中进行定位和建图的 SLAM [1]（同时定位和建图）已成为自主移动机器人的必备能力。自 1986 年首次提出以来，SLAM 受到了众多研究人员的广泛关注，并在机器人、虚拟现实等领域迅速发展。 SLAM是指基于位置和地图的自定位，基于自定位构建增量地图。主要用于解决机器人在未知环境中移动时的定位和地图构建问题[2]。 SLAM作为一项基础技术，早期已应用于移动机器人定位导航。随着计算机技术（硬件）和人工智能（软件）的发展，机器人研究受到越来越多的关注和投入。许多研究人员致力于使机器人更加智能。 SLAM被认为是促进移动机器人真正自主的关键[3]。

有学者根据采用的传感器不同，将 SLAM 分为激光 SLAM 和视觉 SLAM（VSLAM）[4]。与VSLAM相比，由于起步较早，国外的激光SLAM研究相对成熟，长期以来一直被认为是移动机器人的首选方案。与人眼类似，VSLAM 主要以图像作为环境感知的信息源，比激光 SLAM 更符合人类的理解，信息量更多。近年来，基于相机的 VSLAM 研究引起了研究人员的广泛关注。由于价格便宜、易于安装、环境信息丰富、易于与其他传感器融合等优点，出现了许多基于视觉的 SLAM 算法[5]。 VSLAM 具有环境信息更丰富的优势，被认为能够赋予移动机器人更强的感知能力，并应用于一些特定场景。因此，本文将重点放在 VSLAM 上，并梳理出由此衍生的算法。基于各种激光雷达的SLAM不在本文讨论范围内。有兴趣的读者可以参考文献[6,7,8]等来源。

作为自主机器人导航的解决方案之一，传统的VSLAM本质上是基于图像几何特征的简单环境理解[9]。因为传统的 VSLAM 只利用环境的几何特征，如点、线等。面对这种低层次的几何信息环境，传统的VSLAM可以达到高度的实时性。面对光照、纹理和动态物体等普遍的变化，传统的VSLAM显示出明显的不足，在位置精度和鲁棒性方面存在缺陷[10]。虽然传统视觉SLAM构建的地图包含了环境中的重要信息，在一定程度上满足了机器人的定位需求，但不足以支持机器人的自主导航和避障任务。此外，它不能满足智能机器人与环境和人类的交互需求[11]。

人们对智能移动机器人的需求与日俱增，对机器人的自主能力和人机交互能力提出了很高的要求[12]。传统的 VSLAM 算法可以满足机器人的基本定位导航需求，但无法完成“帮我关卧室门”、“去厨房给我拿苹果”等更高级的任务。这样的目标，机器人需要识别场景中物体的信息，找出它们的位置并构建语义图。借助语义信息，将数据关联从传统的像素级升级到对象级。此外，感知几何环境信息被赋予语义标签以获得高级语义图。它可以帮助机器人理解自主环境和人机交互[13]。我们认为，深度学习的快速发展为将语义信息引入 VSLAM 提供了桥梁。尤其是在语义图构建中，将其与 VLAM 相结合，可以使机器人获得对场景的高级感知和理解。它显着提高了机器人与环境之间的交互能力[14]。

2016 年，Cadena 等人 [15]首先提出将SLAM的发展分为三个阶段。在他们的描述中，我们处于鲁棒感知阶段，如图1所示。他们从经典、算法和鲁棒三个方面描述了SLAM在不同时期的重点和贡献。参考 [16] 总结了 2010 年到 2016 年基于视觉的 SLAM 算法的发展，并提供了一个工具包来帮助初学者。优素福等人 [17] 讨论了 VSLAM 的基本框架，并总结了几个数学问题，以帮助读者做出最佳选择。巴夫勒等人 [18]总结了机器人SLAM技术，指出了机器人场景理解的发展趋势。

Servieres 等人从视觉和视觉惯性的融合出发 [19]回顾和比较了重要的方法，总结了SLAM中出现的优秀算法。阿扎姆等人 [20]对基于特征的方法进行了全面研究。他们根据在环境中观察到的视觉特征对所审查的方法进行了分类。此外，他们还提出了未来SLAM发展可能遇到的问题和解决方案。参考。 [21]详细介绍了基于单目、双目、RGB-D和视觉-惯性融合的SLAM方法，并给出了存在的问题和未来的方向。参考[22]描述了VSLAM从几何到深度学习的机遇和挑战，并预测了VSLAM在未来语义时代的发展前景。图 1. SLAM 发展时代概览。 SLAM 的发展经历了三个主要阶段：理论框架、算法分析和高级鲁棒感知。时间点没有严格限制，只是代表了SLAM在一定阶段的发展和人们感兴趣的热点问题。

如您所见，有一些基于视觉的 SLAM 技术的调查和总结。但大多只关注 VSLAM 的一个方面，没有更全面地总结 VSLAM 的发展历程。此外，上述评论更多地关注传统的视觉SLAM算法，而语义SLAM结合深度学习没有详细介绍。因此，有必要对基于视觉的 SLAM 算法进行全面回顾，以帮助研究人员和学生在视觉 SLAM 技术方面展开努力，以了解这一大领域的概况。

为了让读者对 SLAM 领域有更深入、更全面的了解，我们回顾了通用 SLAM 算法从诞生到现在的历史。此外，我们总结了推动 SLAM 解决方案技术演进的关键解决方案。 SLAM的工作从点问题的形成到最常用的状态方法进行了描述。我们不仅仅关注一个方面，而是提出了关键的主要方法来展示将 SLAM 方法带到当前状态的研究之间的联系。此外，我们回顾了 SLAM 从传统到语义的演变，这一视角涵盖了历史上主要的、有趣的和领先的设计方法。在此基础上，我们对深度学习 SLAM 算法进行了全面总结。语义 VSLAM 也进行了详细的解释，以帮助读者更好地理解语义 VSLAM 的特点。我们认为我们的工作可以帮助读者更好地理解机器人环境感知。我们在语义 VSLAM 方面的工作可以为读者提供更好的思路，并为未来的 SLAM 研究甚至机器人自主感知提供有用的参考。因此，本文对基于视觉的 SLAM 技术的发展进行了全面的补充和更新。此外，本文将基于视觉的 SLAM 的发展分为两个阶段：传统 VSLAM 和集成深度学习的语义 VSLAM。让读者更好地了解VSLAM的研究热点，把握VSLAM的发展方向。我们认为传统的相位 SLAM 问题主要解决算法的框架问题。在语义时代，SLAM 侧重于结合深度学习的高级态势感知和系统鲁棒性。

我们的审查对最先进的技术做出了以下贡献：

我们更全面地回顾了基于视觉的 SLAM 的发展，回顾了基于环境语义信息的同步定位和地图构建领域的最新研究进展。
从卷积神经网络（CNN）和循环神经网络（RNN）开始，我们详细描述了深度学习在 VSLAM 中的应用。据我们所知，这是第一次从神经网络的角度介绍 VSLAM。
我们详细描述了语义信息与VSLAM的结合，并指出了VSLAM在语义时代的发展方向。我们主要介绍和总结了语义信息与传统视觉SLAM在系统定位和地图构建方面的突出研究成果，并对传统视觉SLAM和语义SLAM进行了深入比较。最后，提出了语义SLAM未来的研究方向。

具体来说，在第一节中，本文详细介绍了传统 VSLAM 的特点，包括直接法和基于前端视觉里程计的间接法，并对基于深度相机的 VSLAM 与集成IMU的经典 VSLAM 进行了比较。在第 2 节中，本文分为两部分。我们首先从两个神经网络 CNN 和 RNN 中介绍深度学习和 VSLAM 的结合。我们认为，将深度学习引入语义 VSLAM 是语义 VSLAM 发展的前提。此外，这个阶段也可以看作是语义 VSLAM 的开始。然后，本文从目标检测和语义分割两个方面描述了深度学习将语义 VSLAM 推向高级阶段的过程。所以本文从动态对象的定位、映射和消除三个方面总结了语义VSLAM的发展方向。在第 3 节中，本文介绍了一些主流的 SLAM 数据集，以及该领域的一些优秀实验室。最后，我们总结了当前的研究，并指出了未来VSLAM研究的方向。本文的章节目录如图 2 所示。