本文要解决的问题:
本文主要解决
detector 问题,为什么要解决这个问题呢?目前已知的detector的
可重复性检测不鲁棒
作者分析是没有像fast等这样使用像素的梯度信息,因此本文提出了一种
新的方法解决detector问题。
本文主要的贡献:
提出了一种融合传统detector方法和deeplearning的方法的特征detector 器,更加鲁棒稳定健壮。
首先是整体框架:

网络框架很简单,首先为了
仿照金字塔,对原始图像降采样+高斯blur(3层scale),然后在每个scale上进行网络学习。
然后每个输入首先执行像素上的梯度的一阶导数,得到一个feature map层,然后执行像素的二阶导数得到一个feature map层。
再然后经过几层CNN层,最后上采样到原始image 大小。再然后每个scale层累加融合,得到最终的一层W*H*1的response map
上述
融合两层的像素梯度导数层是第一个创新
然后看下loss:

将response层分割成grid,每个grid为N*N的windows大小(上述图片N=8),然后在每个小windows中进行局部极大值抑制。
1)首先对respondse的score进行归一化:

其中i表示这个windows的编号,wi(u, v)表示坐标u v处的响应值(类似superpoint)
2)然后直接“回归”出keypoint在这个小的windows中的坐标:

i还是表示windows的编号(那么也就是每个windows将会获得一个keypoint的候选),cw表示这个windows的左上角坐标
好了有了上述结果就可以类似别的deeplearning使用homograph”弱监督”的惩罚两张图的detector不一致性获得loss了:

其中a,b表示输入的两张图H表示之间的变换,xi,yi表示这个windows上的keypoint位置,R表示响应值。(上述就是两张图的keypoint的一致性)
为了使用multi-scale的windows因此做了不同的windows,如下图所示:

loss将会统计每个不同scale的windows的一致性
