论文阅读笔记《Learning to Find Good Correspondences》

最新推荐文章于 2023-07-10 13:12:47 发布

深视

最新推荐文章于 2023-07-10 13:12:47 发布

阅读量1.3k

点赞数 1

分类专栏：论文阅读笔记 # 图像匹配文章标签：图像匹配八点法 MLP

本文链接：https://blog.csdn.net/qq_36104364/article/details/121094180

版权

论文阅读笔记同时被 2 个专栏收录

259 篇文章 141 订阅

订阅专栏

图像匹配

41 篇文章 13 订阅

订阅专栏

核心思想

本文提出一种基于学习的寻找最优匹配点的方法，利用多层感知机为每一对候选的匹配点进行加权，认为是正确匹配的概率越大，权值越大，认为是错误匹配的概率越大，则权值越小。利用匹配点的权值，对传统的八点法进行改进，得到加权的八点法用于计算本征矩阵。
首先分别对两幅匹配图像进行特征提取，分别得到N个特征点 $k_i,f_i)$ 和 $k'_j,f'_j)$ ， $k_i$ 和 $k'_j$ 表示特征点的坐标， $f_i$ 和 $f'_j$ 表示特征点的特征描述向量。根据特征描述向量之间的距离，对两组特征点进行匹配，得到N对候选匹配点集 $\mathbf{x}=[q_1,q_2...q_N]$ ，每对匹配点 $q_i$ 由两个点的坐标构成， $q_i=[u_i,v_i,u'_i,v'_i]$ 。利用相机的内参矩阵将坐标正则化到[-1,1]的范围内，目的是让优化过程在数值上表现的更好。
然后将候选匹配点集 $\mathbf{x}$ 输入到多层感知机MLP中，为每对候选匹配点计算权重值 $w=[w_1,w_2,...w_N]$ ， $w_i\in[0,1]$ ，权重越接近1，则表示这对匹配点正确匹配的概率越大，否则是误匹配的概率越大。每对匹配点都有对应的一个多层感知机，各个感知机之间的权重是共享的，如图中P所示。在这里插入图片描述
为了融入上下文信息，作者又提出了上下文规范化（Context Normalization），其实现过程如下

其中 $o_i^l$ 表示第 $i$ 对匹配点在第 $l$ 层网络的输出，上述过程看起来和普通的规范化过程并无区别（减去均值除以方差），但是由于面向的维度不同发挥的作用也不同。例如BN层是假设一组图像是满足独立同分布条件的，然后对一个Batch内的多幅图像进行规范化。而本文提出的CN是对一幅图像中的多个匹配点进行规范化，而对于多幅图像之间是分开的，形式上与实例规范化（Instance Normalization）接近。这使得特征图中编码了场景的几何信息及相机的运动信息，将上下文信息融入到MLP中。经过CN层后，为了加速收敛过程，仍采用BN层进行处理，并选择ReLU激活函数。
MLP+CN+BN+ReLU构成一个最小单元，两个最小单元构成一个残差块，这里要与常见的ResNet 区分开，ResNet使用的卷积神经网络CNN。整个网络共有12个残差块构成，每个残差块之间都包含跳跃连接。最后利用MLP将输出维度压缩到1维，并在ReLU函数后增加了tanh函数将输出的范围压缩至[0,1)，表示权重值。
得到权重值 $w$ 后，就要根据匹配点坐标计算本征矩阵 $E$ 。传统的八点法是将匹配点的坐标构建成一个矩阵 $X\in \mathbb{R}^{N\times9}$ ，其中每行对应一对匹配点，其内容如下
在这里插入图片描述
将本征矩阵 $E$ 重新组织成列向量 $V e c (E)$ ，则该向量应为单位向量，且能使 $X^TXVec(E)\|$ 取得最小值
即 $V e c (E)$ 为矩阵 $X^TX$ 最小的特征值对应的特征向量，此外因为本征矩阵需要满足秩为2，因此我们还需寻找一个秩为2的矩阵 $\hat{E}$ 使得该F范数 $\|E-\hat{E}\|_F$ 最小。
相对于传统的八点法，本文设计的加权八点法，就是将匹配点的权重值 $w$ 引入到本征矩阵的计算过程中，用下式
$X^Tdiag(w)XVec(E)\|$ 取代了原本的 $X^TXVec(E)\|$ ，其余过程与八点法相同。
本文设计的损失函数包含两个部分：分类损失用于筛除误匹配点，回归损失用于预测本征矩阵。分类损失函数如下
在这里插入图片描述
其中 $y_k^i$ 表示第 $k$ 幅图中第 $i$ 个匹配点的标签值，0表示误匹配，1表示正确匹配， $o_k^i$ 表示第 $k$ 幅图中第 $i$ 个匹配点的网络输出值， $S$ 是logistic函数方便使用二元交叉熵损失函数H计算损失值， $\gamma_k^i$ 表示用于平衡正负样本的权重。为了避免大量的标记数据集，ground-truth标签值是利用对极几何约束计算得到的，简单来说就是如果给定图中的一个特征点，如果它对应的匹配点不在另一幅图中对应的极线上，则认为是误匹配点。这个过程可以用极线距离进行定量化描述如下
在这里插入图片描述
$p = [u, v, 1]$ , $p^{'} = [u^{'}, v^{'}, 1]$ 分别表示两个匹配点的齐次坐标， $E$ 表示本征矩阵， $v_{[i]}$ 表示向量 $v$ 中第 $i$ 个元素。如果极线距离之和 $d(p,Ep')+d(p',E^Tp)$ 超过 $10^{-2}$ 则认为是误匹配点。
回归损失计算过程如下
在这里插入图片描述
$E_k^*$ 表示本征矩阵的真实值， $g$ 表示加权八点法计算过程，因为 $g$ 符号会根据 $E_k^*$ 进行反转，因此既需要计算差值，又需要计算和。