本文要解决的问题:image retrieval,室外,地标识别(GOOGLE之作,大神出品必属精品)
核心思想:融合global和local feature进行更加精确的image retrieval,并且在local feature
的训练不需要标注(无监督)
网络框架:

整个网络可以分为三部分:
1.backbone 网络(就是传统的cnn网络vgg,提取feature map层)。
2.取较深的一层feature map层,本文channel是2048进行global feature提取。
3.取1中的浅层(channel=1024)进行 local feature提取。
整个pipeline如下:
首先使global feature进行传统的image rerieval检索,例如top30
然后在top30中使用local feature执行2d-2d匹配,使用inlier点个数对top30重新rank.
下边使网络细节:
-
global 网络
1.1 输出的feature map层(H*W*2048)首先经过Gem pooling:

这个pooling层区别与传统的max pooling或者avg pooling更加鲁棒,他是学习出来
的pooling层次只要知道这个即可,上述d表示feature map的每个feature,主要是学习F和b
1.2然后直接fc输出global feature,训练global feature是有监督,因此loss为:


-
local feature后边接入了两个网络
2.1 第一个是降维网络,叫做autoencoder,这个网络,简单理解如下:

如果输入F的feature map 经过autoencoder之后降低了维度还能还原成F的feature map,
那么就是完美降维了,因此使用auto encoder网络
(目的是为了使local feature更加紧凑),
那么该部分网络的loss为:

2.2 降维之后是注意力网络(目的使为了使feature只在特征明显的地方)
输出的是一个score map,可以认为使对特征的打分,loss为:

至此,整体网络训练loss为:

其他细节:在训练好之后实际使用的时候为了cover不同的scale,可以考虑对原始image 采样不同的分辨率,
模仿金字塔,然后取平均得到最终的global feature。
同样local feature也可以使用不同的分辨率,但是这里不能取平均,可以类似sift进行非极大值抑制得到
最终的local feature
喜欢加关注,长期关注更新视觉定位方面论文