基于深度学习的视觉 SLAM 综述——赵洋学习笔记

玛卡巴卡_qin

已于 2022-09-09 21:28:28 修改

阅读量1.3k

点赞数 1

分类专栏： VSLAM 文章标签：深度学习学习机器学习

于 2022-09-08 10:21:09 首次发布

本文链接：https://blog.csdn.net/qin_liang/article/details/126752856

版权

VSLAM 专栏收录该内容

19 篇文章 3 订阅

订阅专栏

1. 引言

同时定位与地图构建（SLAM）是机器人搭载视觉、激光、里程计等传感器，对未知环境构建地图的同时实现自定位的过程，在机器人自主导航任务中起着关键作用．

尽管 SLAM 采用的传感器有激光和视觉等多种类型，但其处理过程一般包含 2 个部分 [5] （如图 1 所示）：前端帧间估计和后端优化．前端帧间估计解决的是机器人在获取前后 2 帧传感器信息的时间间隔内的运动估计，而后端优化解决的是机器人检测到路径闭环后对历史轨迹的优化问题 [6] ．

人工设计的稀疏图像特征当前有很多局限性：
一方面如何设计稀疏图像特征最优地表示图像信息
另一方面稀疏图像特征在应对光照变化、动态目标运动、摄像机参数改变以及缺少纹理或纹理单一的环境等方面

深度学习与 SLAM 的结合主要体现在 3 个方面，即基于深度学习的帧间估计、闭环检测和语义地图生成

2. 深度学习与帧间估计

帧间估计也称为视觉里程计（visual odometry），是通过分析关联摄像机图像之间的多视几何关系确定机器人位姿与朝向的过程，可作为视觉 SLAM 的前端 [30] ．

基于端到端的深度神经网络架构用于预测摄像机速度和方向的改变．主要特点是利用单一类型的计算模块和学习规则提取视觉运动和深度信息以及里程计信息：
首先是图像序列深度和运动信息的提取利用乘性交互（multiplicative interaction）神经网络进行时序立体图像的同步检测（synchrony detection），将立体图像序列之间的空间变换估计转换为同步检测，该网络也被称为无监督同步／深度自动编码器（synchrony/depth au-toencoder，SAE-D）
其次是图像序列速度和方向改变估计．作者将上一层 SAE-D 提取的运动和深度信息作为卷积神经网络层（CNN）输入，用以学习图像速度和方向改变，从而执行帧间估计。
利用卷积神经网络学习图像数据的最优特征表示进行视觉里程计估计，并展示了其算法在应对图像运动模糊、光照变化方面的鲁棒性
先用 Brox 算法提取连续 2 帧的稠密光流特征，以此作为 CNN 网络的输入．文中在设计深度网络时探索了 3 种不同的 CNN 架构，一是基于全局特征的 CNN-1b，一是基于局部特征的 CNN-4b，以及结合前两种架构的 P-CNN．
CNN-1b 和 CNN-4b 结构相似，将浅层 CNN 和深层 CNN 并行级联入全连接网络．该方法在训练的过程中采用逐层训练的方法来解决 CNN 全局训练难的问题．为同时考虑全局特征、局部特征、浅层特征和深层特征，作者将全局特征 CNN-1b 和局部特征 CNN-4b 结合构建了 P-CNN．
在空间变换网络（spatial transformnetwork） [32] 基础上进行了扩展，在设计网络时选择对经典计算机视觉方法进行回归，如端到端的视觉里程计和图像深度估计等
利用神经网络构建了包含全局变换、像素变换和 M 估计器在内的 gvnn（geometric vision with neural network）软件库，作者实现了基于RGB-D 数据的视觉里程计．该系统的网络构架由VGG-16 网络启发构建的Siamse 网络层、位姿变换估计层（SE3 layer）、3 维网格生成层（3D grid generator）、投影层（projection layer）和双线性插值层（bilinear interpolation）组成。
其中，Siamse 网络的输入为2 个连续的帧图像，输出是对摄像机6 自由度的帧间位姿估计向量。基于此帧间估计，将上一帧图像投射到当前位姿，并经过双线性插值生成预测图像．为构造损失函数进行学习，预测图像不是与当前图像进行像素级对比，而是与上一帧图像利用真实的帧间估计进行投影和双线性差值后的图像对比，从而避免了传统神经网络结构在学习过程中单方面的像素丢失和各种运动模糊、强度变化或图像噪声对匹配的影响。

缺点：不同学习算法之间的神经网络架构设计差异性较大，对训练学习数据库有较强的依赖。

3. 深度学习与闭环检测

闭环（loop closure）检测是指机器人在地图构建过程中，通过视觉等传感器信息检测是否发生了轨迹闭环，即判断自身是否进入历史同一地点。闭环检测问题本质上是场景识别问题[33]。

Chen [33] 等首次提出了基于CNN 模型的位置识别技术，其核心在于通过CNN 学习图像特征表示。
作者选择ImageNet 大赛中用以物体识别的OverFeat 神经网络模型进行图像描述。利用各层特征构造混合矩阵比较神经网络每层图像特征在场景识别上的性能差别。构造空间连续性滤波器和时间连续性滤波器进行综合验证，提高匹配准确率。
Hou [35] 等利用caffe 框架下的AlexNet 模型进行特征提取，发现在光照变化明显的环境下，采用深度学习的特征描述鲁棒性能优于传统特征，且特征提取更加迅速。
S¨underhauf [38] 等在caffe 框架下用ImageNet 数据库预训练好的AlexNet 模型进行特征提取，局部区域描述比全局图像描述更能有效应对图像的视角改变问题
某一类数据预训练好的神经网络结构在应用方面具有一定局限
Gomez-Ojeda [37] 等首次基于位置识别数据库Places 对神经网络进行再训练，从而提高图像检索准确率．
S¨underhauf [38] 等在caffe 框架下用ImageNet 数据库预训练好的AlexNet 模型进行特征提取，发现经过Places 数据库再训练后的网络在闭环检测方面更具优势．
为了解决匹配的实时性问题，一种是利用局部敏感哈希（localsensitive hashing）搜索算法，另一种是根据语义信息对搜索区域进行分割以减少搜索对象
Bai [19]采用局部敏感哈希算法进行图像压缩提高匹配效率
Shahid [20]发现余弦距离比欧氏距离训练效果更优，拥有更好的场景辨识能力．
Gao [21-22] 等通过自动编码器提取图像特征来进行图像匹配．
Arandjelovic [39] 等提出了一种端对端的场景识别算法。

问题：如何选择合适的隐含层表示图像特征、如何设计神经网络架构和如何利用面向任务的大数据集对网络参数迁移学习优化

4. 深度学习与语义SLAM

语义SLAM 是指SLAM 系统在建图过程中不仅获得环境中的几何结构信息，同时可以识别环境中独立个体，获取其位置、姿态和功能属性等语义信息，以应对复杂场景及完成更加智能的服务任务

S¨underhauf [42] 等提出面向物体对象的语义建图方法
利用ORB-SLAM2 算法得到环境的3D 点云地图
采用SSD进行物品检测
McCormac [28] 等提出基于卷积神经网络的稠密3 维语义地图构建方法SemanticFusion，依赖Elastic Fusion SLAM 算法位姿估计，
SemanticFusion 中的CNN 在caffe 框架下，基于VGG-16 网络的反卷积语义分割网络结构基础上加入深度通道，输出稠密像素级语义概率图。
Li [46] 等提出了基于CNN 和LSD-SLAM（large scale direct SLAM）的单目半稠密3 维语义建图构建方法，利用LSD-SLAM 代替Elastic Fusion 方法估计摄像机位姿，利用单目相机而非RGB-D 深度相机和立体相机

问题：当前基于深度学习的语义SLAM 多是单向的，即利用传统SLAM 改进语义分割结果，还未出现语义信息与SLAM 相互促进的完善机制