前言
上文宏观梳理了SLAM问题的数学框架,接下来到论文的第三部分,站在语义信息处理的角度上分析如何用识别到的物体来辅助求解相机姿态和路标位置。
III. SEMANTIC SLAM
论文接下来将专注于特别的SLAM问题公式,除了传感器和路标姿态外,还引入路标类别(landmark classes)(比如门、椅子、桌子),以及物体检测形式的语义测量(semantic measurements)两个变量。
论文使用三个数据源:惯性、几何点特征和语义物体检测来估计路标姿态和传感器轨迹。
关键帧中的ORB特征(绿色点)和物体检测结果。分别代表着几何特征点和语义观测。
A. 惯性信息
使用惯性传感器IMU获得一个测量集合 ,包含线性加速度和转动角速度数据。
B. 几何信息(Geometric information)
使用ORB特征。通过最小化ORB描述子的距离来匹配下一帧获得相机变换矩阵(即李代数了)。
前面AB两者合起来作为惯性视觉里程计VIO获得里程计信息。
详情可以了解VIO和ORB-SLAM,在此不多做叙述。
C. 语义信息
首先我们要用非常美的数学模型来描述我们观测到的香蕉:香蕉在图像的哪,香蕉属于哪个类,这个香蕉有多可信呢。
定义从关键帧t中提取的一组物体检测结果: ,其中一个检测结果
中包含三个部分:
: 检测置信度 score
: 矩形框 bounding box,即图像中的物体位置
:检测分类结果,是香蕉还是苹果还是梨子
本论文使用的object detect方法为DPM( deformable parts model ) 可以在CPU上实时运行。同时列出了一些其他描述子,可以参考。
当语义测量的数据关联是已知时(即我们知道现在的观测结果是在A点看的梨子的时候),测量的似然可以分解成下列几个部分:
各部分说明如下,上标s b c的含义如上所述。
b 矩形框估计: 物体方框的似然用正态分布表示,其均值等于物体到图像平面内的投影中心,而协方差与被检测框的规模成正比。也就是说认为中心就是准的,而知道肯定有误差,这个误差用最显然的大小来凑就好了。
c 类别估计和s 置信度计算:与物体检测的confusion matrix有关。实际上,如果用神经网络来识别物体,可以代表神经网络中对图像矩阵的计算过程。也就是说这个统一的大模型甚至将物体检测部分也整合到了一起,可以连续运算。(其实就是将物体检测部分的概率融合到了计算中而已,实际还是分开的,只是表述起来浑然一体)
该节的最后给出完整语义SLAM的数学定义,非常简洁漂亮,可以Mark一下以后在论文综述中引。
总结来说,惯性和几何测量用来跟踪局部传感器轨迹。(这里有一句话不是很理解,similar to a visual odometry approach, the geometric structure is not recovered. 这个recover是回环检测还是什么意思?)而语义SLAM则可以建立物体地图,并用于建立回环检测,因而在不清楚的测量结果下更加鲁棒高效。而SLAM的过程则需要完整的几何结构才能实现同样效果。
总结
本章对引入语义信息之后的SLAM问题做了数学模型的介绍,下一节将重点介绍如何应用期望最大化法(EM)求解这个最优估计问题。
前言
很不容易大家能看到这一章。在前面的章节对语义SLAM的数学模型做了详细说明,那么我们如何求解并得到所要的相机、路标的估计姿态呢。
在看论文的过程中发现底层的概率学理论、非线性优化方法实际都能在各领域通用,比如在机器学习领域,神经网络的训练也在不断应用非线性优化。
所以虽然理论枯燥,一旦打通便能达到视野广阔的境界。
IV. SEMANTIC SLAM Using EM
论文的求解过程,除了数据关联外,我们还把离散