(CVPR 20) D3Feat: Joint Learning of Dense Detection and Description of 3D Local Features

最新推荐文章于 2024-05-26 09:31:25 发布

dloading7

最新推荐文章于 2024-05-26 09:31:25 发布

阅读量863

点赞数

分类专栏： Registration_3DMatch 文章标签： pytorch 深度学习神经网络

本文链接：https://blog.csdn.net/dloading7/article/details/119913616

版权

Registration_3DMatch 专栏收录该内容

4 篇文章 2 订阅

订阅专栏

在这里插入图片描述
想要了解深入了解D3Feat产生的原因，建议可以先去看一下D2Net[1]，再来看D3Feat.

D3Feat核心优势：

D3Feat提供了一种联合框架，在学习描述子的同时进行关键点的检测，传统匹配可能是detect and describe，而本文遵循describe to detect的范式，即不需要额外显式预测关键点，在提取描述子的同时进行关键点的选取。
采用KPConv作为特征提取backbone，全卷积的网络架构能够使整个网络前向传播速度很快，作一次inference基本在1s以内。
最终用来做RANSAC配准的点不再是随机选取，而是选取网络学习出来的关键点。（其实关键点这种策略在3DMatch中效果并不是特别明显，原因是3DMatch benchmark作过2.5cm下采样后，基本点数在20K左右，随机选取5K点和选取5K关键点，最后RANSAC出来效果其实相差不大，或者说并没有很显著的优势，但在小点数比如250点时优势会比较明显）

Work Flow：

在这里插入图片描述

采用KPConv作为backbone进行特征提取，本文中不作重点介绍，需要的可以去看原文。(代码方面不得不说原作者Hugues THOMAS真的很强，但是会相对比较难理解一些，建议上手KPConv代码可以先从白博的这里入手)
KPConv在这里可以粗浅的理解为一个Encoder-Decoder结构：输入点云 $\in {R^{N \times 3}}$ ，输出feature map $\in {R^{N \times c}}$ ， $c$ = 32.
重要假设：可以认为，关键点的特征是具有一些特殊属性，即与领域点的特征会有较大差别的，因此使用这一点来进行关键点的选取：
首先约定一些符号：
${D^k} = {F_{:k}},{D^k} \in {R^N}$ ，即 ${D^k}$ 代表feature map的第 $k$ 列
${d_i} = {F_{i:}},{d_i} \in {R^c}$ ，即 ${d_i}$ 代表feature map的第 $i$ 行
判断一个点是否为关键点的标准：

即： ${x_i}$ 是关键点 $\Leftrightarrow$ ${d_i}$ 中最大的那一维(假设是第 $k$ 维，即第 $i$ 行 $k$ 列)特征同时在 ${x_i}$ 的所有邻域点 ${N_{{x_i}}}$ 在第 $k$ 维上特征中是最大的。
描述会有些绕，上面的式子其实还是比较好看懂的。
如何把上述关键点选取的准则soften以进行训练呢，作者定义两个score来描述上述两个 $a r g m a x$ 操作：

其实看懂了第二步，这一步也不难理解， $\beta _i^k$ 与 $\alpha _i^k$ 分别对应第二步中的两个 $a r g m a x$ 操作。
$\beta _i^k$ $\Leftrightarrow$ depth_wise_max_score
$\alpha _i^k$ $\Leftrightarrow$ local_max_score
接着两个相乘，得到最终的saliency score map $\in {R^{N \times 1}}$ ，代表每个点是否为关键点的置信度。

在代码中就是这样操作的：

至此，网络输出一个dense descriptor $\in {R^{N \times 32}}$ ，一个saliency score map $\in {R^{N \times 1}}$ .

Loss：

Descriptor Loss：首先为了监督提取的特征，文中说用Hardest Contrastive Loss,其实代码中使用的是Circle Loss[2]，这个loss现在在metric learning中用的也比较多了，效果非常好，这里不作展开。
Detector Loss：本文主要是看detector loss的设计，由于缺少哪些点是关键点的这种ground truth信息，因此使用on-the-fly技术对关键点信息进行监督：
在这里插入图片描述
从式子来分析(这里还是假设用的是Contrastive Loss)，当 ${d_{pos}}(i) < {d_{neg}}(i)$ 时，说明此时若在特征空间中作KNN query，点 $i$ 是大概率被视作correspondence的，这时就希望点 $i$ 的saliency score越大越好，因此两者相乘，一负一正，正好是loss降低的方向。反过来也是如此。

Training：

默认150 epochs，总时长：
在这里插入图片描述
在训练集上circle loss和detector loss的收敛曲线：

可以看到整体收敛曲线非常平稳，接着分别在5000、2500、1000、500、250个点上进行evaluate，reported metrics是inlier ratio与feature match recall (registration recall在D3Feat的pytorch版本上的测试代码中没有写，tensorflow版本有，但我比较懒就没自己去写registration recall的scripts).

Keypoints	5000	2500	1000	500	250
Feature Matching Recall	95.76	95.74	95.61	94.64	93.31
Inlier Ratio	43.06	42.76	42.45	40.73	37.86

文中结果：
在这里插入图片描述
可以看到整体复现性还是非常高的。
可视化250个关键点：

Summary：

从上图也可以看到，关键点基本都避免选取在平坦区域，说明detector策略还是比较成功的，只不过和之前的分析一样，在结果方面，D3Feat在大点数时几乎没有什么优势，registration recall没有随机选点的FCGF高，但是在小点数比如250点时优势会比较明显。

个人感觉是数据集3DMatch的限制，导致关键点策略会不那么亮眼，毕竟从2w个点里选5k个点，也选不出什么花来，后面还有RANSAC给你兜底…

Pretrained Model can be found at here:link

Done

dloading7

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
13
评论
(CVPR 20) D3Feat: Joint Learning of Dense Detection and Description of 3D Local Features

D3Feat核心优势：1.D3Feat提供了一种联合框架，在学习描述子的同时进行关键点的检测，即最终用来做RANSAC配准的点不再是随机选取，而是选取网络学习出来的关键点。
复制链接

扫一扫

专栏目录