【视觉SLAM入门】5.1. （基于特征点的视觉里程计）特征提取和匹配--FAST,ORB(关键点描述子)，2D-2D对极几何，本质矩阵，单应矩阵，三角测量，三角化矛盾

终问鼎

已于 2023-08-28 09:28:51 修改

阅读量1.9k

点赞数

分类专栏： # VSLAM 自动驾驶-SLAM 文章标签：矩阵计算机视觉线性代数 SLAM 算法

于 2023-08-01 11:42:18 首次发布

本文链接：https://blog.csdn.net/Eric_Sober/article/details/132017833

版权

自动驾驶-SLAM 同时被 2 个专栏收录

37 篇文章 14 订阅

订阅专栏

VSLAM

16 篇文章 0 订阅

订阅专栏

为什么重要？我们是在做什么事？

特征提取和匹配： 首先是两幅图像的特征提取，然后是对应特征点的匹配。接下来的工作是根据得到的匹配点对，估计相机的运动，具体根据相机分为三种方法：
- 单目相机：2D-2D： 对极几何 方法
- 双目或者RGBD相机： 3D-3D： ICP 方法
- 一个3D点和它相机中的投影位置： 3D-2D ： PnP 方法

0. 基础知识

视觉SLAM两阶段：

前端(VO) —> 粗略相机运动 ------> 提供给后端初始值
后端 —> 优化

VO的实现方法两派：

不提取特征点 ----> 直接法
提取特征点 ------> 特征点法 ----> 成熟

1. 特征提取和匹配

注意：有些东西的作用你要明白：

关键点： 是在一幅图像中找到的点，作用是在一幅图中找到路标点(有代表性的点)。
描述子： 在两个图像的关键点找到的情况下，匹配两个图像中的对应关键点。通常是向量
特征点： 由关键点和描述子两部分组成，任务是(提取XXX关键点，计算XXX描述子)
尺度不变性： 为了确保从远到近都能检测出来关键点
旋转不变性： 为了确保图像旋转后还能检测出来关键点
特征提取的是关键点和描述子，特征匹配是根据描述子匹配的

几种图像特征：

SIFT特征：计算量太大，有些精确
FAST关键点：没有描述子，最快，不准。
ORB特征：改进FAST关键点，采用BRIEF描述子

1.1 FAST关键点

1. 比较周围半径圆范围内的灰度情况，差别大就是角点。
1. 设定一个数量，比如9，范围内至少有连续9个点和选定点的亮度色差大于阈值T的时候，该点就称为特征点。这种方法叫FAST-9。
1. 检测完角点扎堆,非极大值抑制

1.2 ORB的关键点–改进FAST

改进了FAST关键点法，克服了缺点：

1. 可以指定提取数量：对点分别计算Harris相应，取前N个响应最大的角点；
1. 尺度不变性：用图像金字塔提取每一层的角点，均为角点才是角点；
1. 旋转不变性：灰度质心法，保证图像旋转后还能检测到。最后得到的是角度，从图像光度明指向光度暗的一侧，具体实现如下：

在这里插入图片描述

1.3 ORB的描述子–BRIEF

作用：为了保证两个图像中提取出的关键点能对应上各自匹配的点对。

BRIEF是二进制描述子，描述向量由0和1组成
做法：选取关键点周围的图像块，随机选取像素点对(有很多选点方法)，如128就是取128个点对，设两个点像素分别为 $p, q$ , 然后计算 $p, q$ 的大小关系，按结果分别记为0，1，最后得到128位的二进制数。匹配的时候在第二幅图像中也用相同的选点方法,最后比较两幅图像中关键点描述子距离(二进制的字串衡量就是汉明距离)。

1.4 总结

通过图像特征点的对应关系，解决了SLAM最重要的一步：同一个点在不同图像中如何检测出来。
特征匹配的方法有：

暴力匹配(Brute-Force Matcher): 第二幅图像中每个点都计算其在第一幅图对应的特征点，运算量大；
快速最近邻(FLANN)：适用于匹配点数量多
。。。

2. 对极几何，对极约束

目的是求相机运动 $R, t$ ，内参一般知道

这是2D-2D的单目情形，假设相机经过一次运动 $R, t$ 后得到的两帧图如下：

图源SLAM14讲
其中点和线定义如下：

$p_1,p_2$ ：分别同一个点在两帧下的投影点
$O_1, O_2$ ：相机光心
$P$ ：真实世界中的点
$I_1, I_2$ : 两帧图像
$O_1O_2连线$ ：基线
$e_1, e_2$ : $O_1O_2$ 和 $I_1,I_2$ 的交点，也叫极点
极平面 ： $O_1,O_2,P$ 所在平面
极线： $l_1, l_2$ 。

如果没有深度信息，则 $O_1P$ 直线上任一点投影都在 $p_1$ ，且他在第二帧图像上的轨迹在极线 $p_2e_2$ 上，所以有真确的匹配，就可以推断 $P$ 的位置，然后得到相机的运动。

2.1 本质矩阵(对极约束)

推理部分略，详见《视觉SLAM十四讲》第七章7.3节，这里给出结果。
仍参考上图，取两个像素点归一化平面上的点 $x_1,x_2$ ：
$x_1=K^{-1}p_1,\qquad\qquad x_2 = K^{-1}p_2$
则 最终的对极约束 为：
$\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad p_2^TK^{-T}t$ ^ $RK^{-1}p_1 = 0$

它的含义是 $O_1，O_2,P$ 三点共面。从式中心部分，记本质矩阵 $\boldsymbol E$ 和基础矩阵 $\boldsymbol F$ 如下:

$\qquad\qquad\qquad\qquad\qquad\qquad\qquad E=t$ ^ $R\qquad\qquad F=K^{-T}EK^{-1}\qquad\qquad x_2^TEx_1=p_2^TFp_1=0$

可以看出 $\boldsymbol E$ 和 $\boldsymbol F$ 只差内参 $K$ (已知)，所以二者求一即可。
不妨以 $E = t$ ^ $R$ 来求解。则后续工作如下：

根据已匹配点对，求出 $\boldsymbol E$ 或 $\boldsymbol F$
根据 $\boldsymbol E$ 或 $\boldsymbol F$ ,求出相机运动 $\boldsymbol {R,t}$

2.1.1 求解本质矩阵

探究本质矩阵的特点：

1. 由对极约束 $x_2^TEx_1=0$ , 所以它在不同尺度下等价，左右乘依旧满足约束。又因为 $E = t$ ^ $R$ , 原本有6个自由度，故去掉尺度，还有5个自由度
1. $E 的内在性质$ ：它的奇异值必定是 $[\delta ，\delta， 0]^T$ 的形式，非线性的性质。

求解依据：
$x_2^TEx_1 = 0 \qquad\qquad\qquad\qquad (1)$
理论上可以用5对点来求解，但是很麻烦。故用 八点法 求解(由于尺度不变性)。

1.首先考虑一对点(归一化坐标 $x_1, x_2$ )：将(1)式展开:
$(u_1, v_1,1)\begin{pmatrix} e_1\quad e_2\quad e_3 \\e_4\quad e_5\quad e_6 \\e_7\quad e_8\quad e_9 \end{pmatrix}\begin{pmatrix} u_2\\v_2\\1 \end{pmatrix}=0 \quad\\\; \\\;\Downarrow 将e展开 \\\;\\\;e=[e_1,e_2,e_3,e_4,e_5,e_6,e_7,e_8,e_9]\\\;\\\; \Downarrow展开并重写\\\;\\\; [u_1u_2,u_1v_2,u_1,v_1u_2,v_1v_2,v_1,u_2,v_2,1]\cdot e = 0 \\\;\\\Downarrow考虑8对点的方程组$
在这里插入图片描述
至此，本质矩阵的求解结束

2.1.2 恢复相机运动 $R ， t$

对 $\boldsymbol E$ 做SVD分解
$E=U\sum V_T\qquad\qquad (U,V正交阵，\sum 为奇异矩阵且=diag(\delta,\delta,0))$
求解较为复杂，这里给出结果
一共存在4组解。如下：

蓝色横线就是相机平面，红色点为投影点。

有(1)满足要求，因为只有这样才符合投影模型，深度才为正。将解出来的解带入验算即可。

2.1.3 本质矩阵调整

5个自由度，用了8个点，上边的方程求解出的 $E$ 可能不满足 $E$ 的内在性质( $\boldsymbol {\sum = diag(\delta,\delta,0)}$ )，因此要调整。做法如下：
在做SVD分解时，得到
$\sum = diag(\delta_1,\delta_2,\delta_3) \\\;\\\Downarrow 设\delta_1\ge\delta_2\ge\delta_3，则新的\sum如下\\\; \\\sum' = diag(\frac{\delta_1+\delta_2}{2}, \frac{\delta_1+\delta_2}{2},0)\\\; \\\Downarrow 带入SVD分解式\\\; \\E=Udiag(\frac{\delta_1+\delta_2}{2}, \frac{\delta_1+\delta_2}{2},0)V^T$

相当于把求出来的矩阵投影到了 $\boldsymbol E$ 的流形上，也可以直接取 $\sum = (1,1,0)$ (尺度不变性)

2.1.3 遗留问题

$\boldsymbol E$ 的尺度不确定性导致了 $\boldsymbol {t}$ 的尺度不确定性。(由于 $\boldsymbol R$ ) 自身带有约束。因此单目SLAM存在初始化： 以 $\boldsymbol t$ 的单位为固定尺度1的计算相机运动和特征点；
单目初始化不能只有纯旋转，必须要有一定的平移：因为 $\boldsymbol t$ 为0，所以 $\boldsymbol E$ 最终也为0;
当点多于8对，此时构成超定方程，我们有两种做法：

3.1. 最小化一个二次型(最小二乘意义下的)
3.2. 随机采样一致性(RANSAC)，可以处理有错误匹配的情况，一般用这个。

2.2 单应矩阵（特别提一下）

为什么需要单应矩阵 $H$ (Homography)？

当特征点共面，相机纯旋转， $\boldsymbol F$ 的自由度少了 $t$ ，下降。这就是退化现象。
如果这时仍用八点法求解，多出来的自由度是噪声带来的。
为了避免退化，同时估计基础矩阵 $\boldsymbol F$ 和单应矩阵 $\boldsymbol H$ ，选择重投影误差小的矩阵作为最终运动估计矩阵。

故 $H$ 假设的所有特征点位于平面上。

详细推导内容见SLAM十四讲7.3.3 。根据法平面做的，求解与 $E 和 F$ 相似。只需要4对匹配点就可以算出。

2.3 三角测量(Triangulation)—深度信息

计算深度：回想相机模型那一节，这里的深度就是之前被我们固定为1的 $\boldsymbol s$ 。以第一帧图像为坐标原点，由以上对极约束内容有：
$s_1x_1 = s_2Rx_2+t \\\; \\\Downarrow 分别单独计算，左乘x_1的反对称矩阵$
$\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad s_1(x_1$ ^ $x_1=0=s_2(x_1$ ^ $Rx_2+(x_1$ ^ $) t$
可以直接求得深度 $\boldsymbol {s_1,s_2}$ 。但是由于噪声的存在，我们一般是求最小二乘解，而不是零解。同样由于尺度不确定性，我们只知道深度对于t的数量，而不知道具体究竟是多少米。
三角化矛盾： 平移越大三角化越精确，但是视野越短，反之亦然。

终问鼎

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
【视觉SLAM入门】5.1. （基于特征点的视觉里程计）特征提取和匹配--FAST,ORB(关键点描述子)，2D-2D对极几何，本质矩阵，单应矩阵，三角测量，三角化矛盾

从特征点的解释和说明出发，介绍了关键点，描述子和他们的具体实现。对VO前端里程计的任务进行了推理，得到了视觉SLAM中重要的特征匹配任务的完成和原理推导。以及在单目相机情况下的特征匹配和初始化即用对极约束求解相机位姿和深度(三角化)的过程
复制链接

扫一扫