视觉SLAM开源方案汇总及设备选型建议

奥比中光3D视觉开发者社区

已于 2023-08-24 10:34:15 修改

阅读量426

点赞数

文章标签：目标跟踪人工智能计算机视觉

于 2023-08-24 10:14:58 首次发布

原文链接：https://mp.weixin.qq.com/s/ibKr1mbi6MQoRB_Rhxc8kA

版权

SLAM的引用

1.1定义

SLAM 是 Simultaneous Localization and Mapping 的缩写，中文译作“同时定位与地图构建”。它是指搭载特定传感器的主体，在没有环境先验信息的情况下，于运动过程中建立环境的模型，同时估计自己的运动。如果这里的传感器主要为相机，那就称为“视觉 SLAM”。
1.2开发背景
在这里插入图片描述

图1-1 SLAM中建图的分类与作用

引入SLAM的主要目的如下：
1）建图
使用SLAM可在传感器具有良好表现的环境下建立精度较高的全局地图，建立好的地图会为后面的定位、导航等功能提供服务。
2）定位
视觉SLAM中可通过帧间数据匹配计算相机的相对变换，对应的就是机器人的位姿信息，不过该计算结果中存在累计误差的影响；利用SLAM建立的全局地图，通过相机采集到的环境信息与地图进行匹配可以减小累积误差的影响，获得更加精准的机器人位姿。
3）导航
如果我们建立的地图中包含了“哪些地方可以通过，哪些地方不能通过”的信息，那么我们可以以此实现机器人在地图中从某一起点到某一终点的路径规划与跟踪，并能够对地图中固定障碍物实现避障。但这对我们能够建立的地图有要求，需要是“稠密”地图。

视觉SLAM

2.1 经典视觉SLAM框架
SLAM至今已历经三十多年的研究，这里给出经典视觉SLAM框架，这个框架本身及其包含的算法已经基本定型，并且已经在许多视觉程序库和机器人程序库中提供。
在这里插入图片描述

图2-1 经典视觉SLAM框架

我们把整个视觉 SLAM 流程分为以下几步：
1）传感器信息读取，在视觉 SLAM 中主要为相机图像信息的读取和预处理。如果在机器人中，还可能有码盘、惯性传感器等信息的读取和同步。
2）视觉里程计 (Visual Odometry, VO)，视觉里程计任务是估算相邻图像间相机的运动，以及局部地图的样子，VO 又称为前端（Front End）。
3）后端优化（Optimization），后端接受不同时刻视觉里程计测量的相机位姿，以及回环检测的信息，对它们进行优化，得到全局一致的轨迹和地图。由于接在 VO 之后，又称为后端（Back End）。
4）回环检测（Loop Closing），回环检测判断机器人是否曾经到达过先前的位置。如果检测到回环，它会把信息提供给后端进行处理。
5）建图（Mapping），它根据估计的轨迹，建立与任务要求对应的地图。某些使用场合中，我们只截取SLAM的部分功能应用到实际场景中。举例来说只使用VO部分我们可以得到连续的相机相对运动信息，虽然该运动信息存在累计误差，但应用中对此要求不高甚至不做要求，譬如VR头显中计算头显设备运动时的位姿。
不过一般在机器人应用场景中，个人认为建图功能也是不可或缺的。因为前端包括后端优化得到的运动信息始终包含累积误差，该累积误差在SLAM中只能通过回环检测（机器人回到某一处曾经经过的地方且系统识别出来）或者与事先建立好的具有较高精度的全局地图匹配来消除。但是机器人在实际运动中，不能保证全局路径一定会有重叠处，也就是说在SLAM计算中很可能出现不存在回环的情况，此时累积误差只能通过与全局地图匹配来消除，因此SLAM的建图功能也不可或缺。
在这里插入图片描述

图2-2 回环检测消除累积误差

这一点在VINS开源项目（香港科技大学团队基于单目+IMU开发的开源SLAM方案）中的测试视频（见“视频/VINS/[Open Source] VINS-Mono_ Monocular Visual-Inertial System in EuRoC MAV Dataset (MH_05 V1_03).mp4”）中也有体现。在回环检测前，SLAM计算得到的位姿与真实位姿之间已经产生了很大的偏差，如图2-3所示；该偏差只有在相机回到了曾经经过的地方且SLAM成功执行了回环检测后才得到了消除，如图2-4所示。
在这里插入图片描述

图2-3 未进行回环检测前的位姿累积误差

在这里插入图片描述

图2-4 回环检测消除累计误差

2.2视觉SLAM方案的分类
视觉SLAM方案可按照传感器的不同（单目、双目、RGBD、与IMU的组合等）、前端方法的不同（主要分为直接法和特征点法）、后端优化方案的不同（滤波或者非线性优化）、生成地图形式的不同（稀疏地图、稠密地图等）具有不同的划分。这里主要以传感器的不同对slam方案进行简单的介绍。
1）单目slam
只使用一个摄像头采集信息，在尺度完成初始化的情况下（即相机初始阶段进行了一段位移且确定了该段位移的实际大小作为参考），能够完成连续图像间相机位姿的计算与建图。优点在于设备简单，成本低。缺点在于存在尺度漂移现象；图像的深度信息只能通过三角测量计算得到，对环境适应性差；在相机位移较小时计算误差较大，建图精度不高。
2）双目slam
使用双目相机采集信息，双目相机可以通过立体视觉原理计算得到像素深度，这样就不存在单目slam中深度未知的情况。优点在于对环境的适应性要高于单目slam，且能够计算得到像素真实深度；缺点在于像素深度计算量较大，一般通过FPGA或者GPU加速实现实时计算输出。
3）RGBD SLAM
RGBD相机是指能够同时输出RGB图像和对应的深度图的相机，其测量像素深度不再通过耗时的被动双目匹配计算，而是通过激光散斑增加图像纹理加速计算或者硬件测量（结构光、TOF等）实现。因此它可以看做减小了计算量的双目SLAM，但是RGBD相机普遍在室外表现效果不佳，更多用于室内环境。
4）近年来有学者提出单目/双目+IMU的slam方案，其中IMU主要起到的作用包括：
（1）解决单目slam的初始化尺度问题
（2）追踪中提供较好的初始位姿
（3）提供重力方向
（4）提供一个时间误差项以供优化。理论上来说IMU提供了冗余的运动信息，通过数据融合可以得到更加精确的运动估计。从实现难度上来看：单目SLAM>双目SLAM>RGBD SLAM。
2.3 开源视觉SLAM方案汇总
目前比较流行的开源视觉SLAM方案如表2-1所示：
在这里插入图片描述

表2-1 开源SLAM方案汇总

视觉SLAM设备选型

3.1 设备选型的重要性

说了这么多，终于到了设备选型这一部分。设备选型的重要性不言而喻，毕竟“好模型架不住坏数据”，SLAM模型建立得再好，如果设备采集的数据本身误差过大，计算结果必定也不够理想。先以VINS项目为例，根据论文内容他们的设备型号和具体信息如下。相机模块：单目相机，型号为MatrixVision的mvBlueFOX-MLC200w，具有全局快门；cmos型号为MT9V034，单色，分辨率为752X480，帧率20HzIMU：该模块使用的是大疆的集成飞控模块A3的内置IMU模块，芯片型号为ADXL278和ADXRS290（都为工业级IMU芯片）；可以确定A3内置对IMU的校准去躁等处理算法。
在这里插入图片描述

图3-1 VINS中设备型号

由此看来VINS选用的硬件是具有一定要求的，其采集数据的精度也对SLAM算法最终的效果产生正向作用。所以如果我们选用了精度没那么高的消费级IMU配合单目相机采集数据时，VINS的输出结果就不一定能够达到论文中的精度了。
3.2 设备类型选择
我们的项目中工作环境为室外，对传感器选型提出了较高要求。以RGBD相机为例，很多基于结构光或者TOF方案的深度摄像头在室外表现不佳，主要原因是室外自然光的影响。个人初步倾向于选用双目或者RGBD（双目某些情况下可视为RGBD）+IMU的方案，主要理由如下：
1）双目/RGBD+IMU的硬件，可在此基础上尝试基于单目/双目/RGBD/单目+IMU/双目+IMU等多种开源SLAM方案；反之单目+IMU的设备对开源方案的限制较大（只能是单目/单目+IMU）。
2）单目SLAM在建图方面，尤其是深度估计方面，对场景适应性不好且精度较差。双目/RGBD因为可以计算得到深度，在建图方面相对具有优势，更容易建立“稠密”地图。3）SLAM定位实现中，基于单目的方案其计算量也要比基于双目/RGBD要大，且因为引入了三角测量部分，对于环境适应性较差。所以在选型方面，我们主要聚焦在双目/RGBD类型；同时为了加快开发进程，若选择能够提供开发SDK等工具的厂家，则可以省去对于相机的标定、数据同步等开发工作。