激光雷达(LiDAR)和视觉相机(Visual Camera)是SLAM中最常用的两类sensor,他们有什么优缺点?研究者和工程师们又该怎么却选择呢?针对该问题将从以下方面进行一些分析。
1、sensor 感知真实物理世界的能力(源数据好不好)
毫无疑问,sensor是用来感知真实物理世界的,因此sensor所编码输出的数据(归根到底都是一串无聊的二进制码)所反映物理世界的完备度、精准度、鲁棒度,是一些重要的指标。
LiDAR输出3d离散点云,辐射信息多数不靠谱。说是3d,但其实更像2.5d,因为现实物理世界是一个3D实体空间,而LiDAR的点云只是一层有深度差异的表面surface模型,surface背后的信息它并无法穿透去感知,因此严格讲是2.5d。辐射信息不太可靠,多光谱激光雷达尚处于实验室阶段。
Visual Camera 输出2d图像信息,由于分辨率比较高可以认为是连续性的,根据辐射值分为灰度图像和RGB图像。
1)完备性方面:2.5d vs 3d+rgb;前者几何信息更丰富,多0.5d,后者有更多辐射信息。前者离散采样,后者连续采样,局部后者采样丰富。
2)精确度方面:几何上前者比后者多了深度信息,更精确;后者有辐射信息;
3)鲁棒度方面:点云在角点处噪声更大;影像在不同光照条件下辐射值会变化。
2、pose估计的能力
SLAM中用到的pose估计发生在三个地方: 相邻单帧匹配;关键帧(局部子图\窗口图)匹配;全局闭环检测匹配。
相邻单帧匹配,点云鲁棒性更高,精度在不同环境中各有千秋;
关键帧(局部子图\窗口图)匹配,但由于点云数据的离散型,选取关键帧时距离不能太大,运动距离大时相邻两帧点云的采样密度差异比较大;此时影像更能适应较长的窗口。
全局闭环检测匹配,很难说。