论文阅读《SuperPoint: Self-Supervised Interest Point Detection and Description》

CV科研随想录

已于 2022-04-18 12:08:25 修改

阅读量3.4k

点赞数 1

分类专栏： CV顶会(刊)论文阅读文章标签：深度学习计算机视觉人工智能

于 2022-03-17 14:34:10 首次发布

本文链接：https://blog.csdn.net/weixin_40957452/article/details/123544134

版权

CV顶会(刊)论文阅读专栏收录该内容

62 篇文章 35 订阅

订阅专栏

论文地址： https://arxiv.org/abs/1712.07629
代码地址：https://github.com/magicleap/SuperPointPretrainedNetwork

背景与意义

人工标记特征点需要大量的工作量，且在特征点的语义信息不明确时难以标记；为此提出一种自监督网络框架，基于数据驱动策略来同时获取图像中的特征点位置与描述符，同时本文提出一种Homographic Adaptation策略来增强特征点的复检率与跨域鲁棒性；

在合成的虚拟数据集上进行有监督训练一个全卷机网络得到初始特征点检测器MagicPoint；
使用多尺度变换方法Homographic Adaptation对真实场景warp得到不同视角下的图像，再使用使用MagicPoint来得到多个视图的特征点，再将多个视角得到的特征点反warp回原视图作为伪标签；
图像对之间的位姿表示为warp单应性矩阵，再将已知位姿的图像对送入SuperPoint提取特征点与描述子；
将原图进行warp得到图像对，将图像对送入SuperPoint中得到图像对的特征点，利用图像对之间的位姿关系与伪标签来构建自监督训练损失，监督模型训练；

网络结构

在这里插入图片描述 SuperPoint Architecture结构主要包含三个部分：权值共享特征提取、兴趣点检测、描述符生成；

其中权值共享特征提取模块：使用VGG网络来得到特征图 $\frac{H}{8}\times\frac{W}{8}\times128$ ；

兴趣点检测模块：通常可以通过反卷积或者双线性插值来得到原图大小的图像，但这样会导致计算量剧增，因此本文采用了一个“子像素卷积”（像素洗牌）的方式对图像进行上采样：先使用一个CNN将特征图转换为 $\frac{H}{8}\times\frac{W}{8}\times65$ 的特征图，其中每个点代表特征图中每一点对应原图的的8*8邻域中的点是否为特征点，以及第65维代表该邻域内无特征点，在channel维度做softmax，将非特征点dustbin剔除，最后将 $\frac{H}{8}\times\frac{W}{8}\times64$ 的概率图reshape为原图 $H\times W$ 大小；

在这里插入图片描述
描述子生成模块：使用一个CNN将特征图转换为 $\frac{H}{8}\times\frac{W}{8}\times c_1$ 的稀疏描述子图，再通过双三次多项式插值得到原图大小的描述符（代码中使用双线性插值完成），然后通过 $L_{2}$ 得到正则化后描述符；

损失函数

损失函数包含两个部分：特征点检测损失 $\mathcal{L}_{p}$ 与描述子损失 $\mathcal{L}_{d}$ ；
$\begin{aligned} \mathcal{L}\left(\mathcal{X}, \mathcal{X}^{\prime}, \mathcal{D}, \mathcal{D}^{\prime} ; Y, Y^{\prime}, S\right)= \mathcal{L}_{p}(\mathcal{X}, Y)+\mathcal{L}_{p}\left(\mathcal{X}^{\prime}, Y^{\prime}\right)+\lambda \mathcal{L}_{d}\left(\mathcal{D}, \mathcal{D}^{\prime}, S\right) \end{aligned}\tag{1}$
其中 $\mathcal{X}$ 代表输入图像中得到的特征点检测的结果， $Y$ 代表伪标签； $\mathcal{X}^{\prime}$ 与 $Y^{\prime}$ 表示经过单应性变换 H 矩阵 warp后的对应图像的特征点检测结果与其对应的伪标签；
特征点损失：
$\mathcal{L}_{p}(\mathcal{X}, Y)=\frac{1}{H_{c} W_{c}} \sum_{h=1; w=1}^{H_{c}, W_{c}} l_{p}\left(\mathrm{x}_{h w} ; y_{h w}\right)]\tag{2}$
其中特征点损失用交叉熵损失来衡量：
$l_{p}\left(\mathrm{x}_{h w} ; y\right)=-\log \left(\frac{\exp \left(\mathrm{x}_{h w y}\right)}{\sum_{k=1}^{65} \exp \left(\mathrm{x}_{h w k}\right)}\right)\tag{3}$
描述子损失：
$\begin{array}{l} \mathcal{L}_{d}\left(\mathcal{D}, \mathcal{D}^{\prime}, S\right)= \frac{1}{\left(H_{c} W_{c}\right)^{2}} \sum_{h=1; w=1}^{H_{c}, W_{c}} \sum_{h^{\prime}=1; w^{\prime}=1}^{H_{c}, W_{c}} l_{d}\left(\mathbf{d}_{h w}, \mathbf{d}_{h^{\prime} w^{\prime}}^{\prime} ; s_{h w h^{\prime} w^{\prime}}\right) \end{array}\tag{4}$
其中 $l_{d}$ 为Hinge-loss
$\begin{aligned} l_{d}\left(\mathbf{d}, \mathbf{d}^{\prime} ; s\right) &=\lambda_{d} * s * \max \left(0, m_{p}-\mathbf{d}^{T} \mathbf{d}^{\prime}\right) +&(1-s) * \max \left(0, \mathbf{d}^{T} \mathbf{d}^{\prime}-m_{n}\right) \end{aligned}\tag{5}$
若 $s = 1$ 时，说明两点是匹配点，则只考虑第一项，此时两点的描述符特征向量 $d^{T}$ 与 $d^{\prime}$ 两者越接近，惩罚越小，若 $s = 0$ 时，说明两点是非匹配点，则两点的描述符特征向量 $d^{T}$ 与 $d^{\prime}$ 差异越大，惩罚越小， $m_{p}$ 与 $m_{n}$ 为超参数， $\lambda_{d}$ 是用于平衡正负样本（不匹配点多）之间的数量权重；

$s_{h w h^{\prime} w^{\prime}}=\left\{\begin{array}{ll} 1, & \text { if }\left\|\widehat{\mathcal{H} \mathbf{p}_{h w}}-\mathbf{p}_{h^{\prime} w^{\prime}}\right\| \leq 8 \\ 0, & \text { otherwise } \end{array}\right.\tag{6}$
其中 $s_{h w h^{\prime} w^{\prime}}$ 为指示矩阵； $P_{hw}$ 为单元格 $(h, w)$ 中心像素的位置，式6的含义为，原图先检测出的特征点以单应性矩阵H做单应性变换后到对应图像的位置与原图以H做单应性变换后检测的特征点的的距离不超过8（在邻域内），说明两点是匹配上的；