论文笔记：D2-Net: A Trainable CNN for Joint Description and Detection of Local Features

最新推荐文章于 2024-04-12 09:58:17 发布

爱嘤嘤的小猪仔

最新推荐文章于 2024-04-12 09:58:17 发布

阅读量2.4k

点赞数 5

文章标签：计算机视觉深度学习 slam

本文链接：https://blog.csdn.net/weixin_43199832/article/details/115184672

版权

论文链接：https://arxiv.org/pdf/1905.03561.pdf
代码链接：https://github.com/mihaidusmanu/d2-net

主要内容

相比传统的detect-then-describe的方法（先提取关键点，然后在关键点附近提取patch，然后用这些patch产生描述子），本文提出的D2-Net采用describe-and-detect的策略（同时提取描述子和关键点），测试显示D2-Net在困难的数据集（如较大的光照、角度变化等）上可以获得相同甚至更好的性能。

研究思路

detect-then-describe方法先提取关键点，然后在关键点附近提取patch，然后用这些patch产生稀疏的描述子，稀疏的描述子可以采用最近邻搜索，计算其欧氏距离的方法实现高效的特征匹配，稀疏的描述子也意味着内存的节省。同时，由于关键点多选择角点或者块状区域，因此使用这些局部特征可以很准确地进行定位。但是稀疏的局部特征在昼夜、季节变化或者弱纹理条件下匹配性能会变得很差。研究发现这种问题的原因在于关键点提取所使用的低层信息容易受到图像低层信息，比如像素密度的影响。另一方面，一系列的研究也发现即使当关键点性能很差时，局部描述子依然可以成功匹配。因此，放弃检测（提取关键点）直接稠密地提取描述子的方法被提出，这种方法在具有挑战性的情况下确实获得了更好的表现，但这种鲁棒性是以更久的匹配时间和更大的内存损耗为代价的。
因此，在这篇文章中，作者希望可以使用稀疏特征，并且能够在具有挑战性的情况下确实获得了很好的表现。出于这个目的，作者提出了一种describe-and-detect的策略，首先使用CNN（Convolutional Neural Network，卷积神经网络）计算特征图，然后通过将这些特征图进行切片的方式来计算描述子，并且提取关键点（选择特征图中的局部最大值）。通过这种方法，使得局部关键点和局部描述子可以很好的耦合到一起，这些局部关键点也会获得很好的匹配性能。这里注意到，关键点和描述子都是从特征图中提取的，而特征图由CNN产生，属于高层信息，很好地解决了上面提到的问题。但同时作者也指出，高层次信息提取出来的关键点在拥有高鲁棒性的同时，准确性会受到一定影响（可能是因为感受野问题，是不是需要上采样还原，我自己猜的）。
两种特征提取方式如下图所示：
在这里插入图片描述

整体流程

整体流程如下图所示：

在这里插入图片描述
首先，将图像 $I$ 输入到卷积神经网络 $\mathcal F$ 中，得到三维张量 $F$ ， $F\in R^{h×w×n}$ ， $h \times w$ 是特征图的空间分辨率， $n$ 是特征图的通道数。然后使用三维张量 $F$ 来提取描述子向量 $d：d_{ij}=F_{ij},d\in R^n$ ，这里 $i = 1, . . ., h ， j = 1, . . ., w$ 。通过计算描述子欧式距离并进行比较的方法，建立匹配关系。在比较前，先进行归一化处理： $\hat d_{ij}=d_{ij}/||d_{ij}||_2$ 。
接下来对特征点做进一步的表达，首先定义对三维张量 $F$ 的二维响应 $D$ ：
$D^k=F_{::k}，D^k\in R^{h×w}$
这里， $k = 1, . . ., n$ 。可以将特征提取函数 $\mathcal F$ 理解为 $n$ 个不同的特征检测函数，每个函数都产生一个二维响应地图 $D^k(k=1,...,n)$ 。然后根据这些响应地图进行检测。如果点 $(i, j)$ 要被检测到，它必须满足如下要求：
在这里插入图片描述
对每一个像素点 $(i, j)$ ，选择最突出的特征检测函数，相当于特征图的通道进行选择，并且要求像素点 $(i, j)$ 是对应响应地图 $D^k$ 的局部最大值点。
下面设计相应的公式来实现上述操作，并且可以让网络实现误差反向传播。首先，定义软的的局部最大值得分：
在这里插入图片描述
这里， $N (i, j)$ 是像素点 $(i, j)$ 临近的九个像素点（包括自己，相当于3×3）。然后定义特征图通道选择函数，以比例的形式定义：
$\beta^k_{ij}=D^k_{ij}/\underset {t}{max}D^t_{ij}$
为了将 $\alpha^k_{ij}$ 、 $\beta^k_{ij}$ 都考虑进来，用它们的乘积来定义 $\gamma_{ij}$ ：
$\gamma_{ij}=\underset {k}{max}(\alpha^k_{ij}\beta^k_{ij})$
最后将 $\gamma_{ij}$ 进行归一化，得到soft detection score $s_{ij}$ ：
$s_{ij}=\gamma_{ij}/\sum_{(i',j')}\gamma_{i'j'}$
为了获得对尺度表换更加鲁邦的特征，文中使用了图像金字塔。给定输入图片 $I$ ，图像金字塔 $I^{\rho}$ 被建立，其中包含了三种不一样的分辨率 $\rho=0.5,1,2$ （分别对应于半分辨率、输入分辨率和两倍的分辨率），并在每个分辨率下提取特征图 $F^{\rho}$ 。然后更大的图片结构就会被从低分辨率的特征图传递到高分辨的特征图，用下面的这种方式：
在这里插入图片描述
为了满足加法，特征图 $F^{\gamma}$ 会被修改成和特征图 $F^{\rho}$ 一样的尺寸。

损失函数

给定一对图像 $I_1,I_2)$ 和它们之间的一组匹配 $c:A\leftrightarrow B(A\in I_1,B\in I_2)$ 。所设计的损失函数希望最小化匹配的描述子 $(\hat d_A^{(1)},\hat d_B^{(2)})$ 距离，最大化与其不匹配的描述子 $(\hat d_{N_1}^{(1)},\hat d_{N_2}^{(2)})$ 之间的距离。其中， $\hat d_A^{(1)}$ 对应 $\hat d_{N_2}^{(2)}$ ， $\hat d_B^{(2)}$ 对应 $\hat d_{N_1}^{(1)}$ 。
然后便可以定义正距离 $p (c)$ :
$p(c)=||\hat d_A^{(1)}-\hat d_B^{(2)}||_2$
负距离 $n (c)$ 定义为：
$n(c)=min(||\hat d_A^{(1)}-\hat d_{N_2}^{(2)}||_2,||\hat d_{N_1}^{(1)}-\hat d_B^{(2)}||_2)$
这里，负样本 $\hat d_{N_1}^{(1)}$ 和 $\hat d_{N_2}^{(2)}$ 是位于正确对应的正方形局部邻域之外的最困难的负样本：
在这里插入图片描述
$N_2$ 同理。在给定margin $M$ 之后，triplet margin loss可以被定义为：
$m(c)=max(0,M+p(c)^2-n(c)^2)$
最终的损失函数可以写为：

这里， $s_c^{(1)}$ 和 $s_c^{(2)}$ 是 $I_1$ 中点 $A$ 和 $I_2$ 中点 $B$ 的soft detection score， $C$ 是 $I_1$ 和 $I_2$ 之间全部的响应。

实验结果

在这里插入图片描述

爱嘤嘤的小猪仔

关注

5
点赞
踩
19

收藏

觉得还不错? 一键收藏
1
评论
论文笔记：D2-Net: A Trainable CNN for Joint Description and Detection of Local Features

论文链接：https://arxiv.org/pdf/1905.03561.pdf代码链接：https://github.com/mihaidusmanu/d2-net主要内容相比传统的detect-then-describe的方法（先提取关键点，然后在关键点附近提取patch，然后用这些patch产生描述子），本文提出的D2-Net采用describe-and-detect的策略（同时提取描述子和关键点），测试显示D2-Net在困难的数据集（如较大的光照、角度变化等）上可以获得相同甚至更好的性能。
复制链接

扫一扫