Unifying Deep Local and Global Features for Image Search(2020)(十四)

最新推荐文章于 2024-08-16 07:34:57 发布

lizhaohu01

最新推荐文章于 2024-08-16 07:34:57 发布

阅读量2k

点赞数 4

分类专栏： deepfeature 文章标签：计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010260681/article/details/109111422

版权

deepfeature 专栏收录该内容

14 篇文章

订阅专栏

本文要解决的问题：image retrieval，室外，地标识别(GOOGLE之作，大神出品必属精品)

核心思想：融合global和local feature进行更加精确的image retrieval，并且在local feature

的训练不需要标注（无监督）

网络框架：

整个网络可以分为三部分：

1.backbone 网络(就是传统的cnn网络vgg，提取feature map层)。

2.取较深的一层feature map层，本文channel是2048进行global feature提取。

3.取1中的浅层（channel=1024）进行 local feature提取。

整个pipeline如下:

首先使global feature进行传统的image rerieval检索，例如top30

然后在top30中使用local feature执行2d-2d匹配，使用inlier点个数对top30重新rank.

下边使网络细节：

global 网络

1.1 输出的feature map层（H*W*2048）首先经过Gem pooling：

这个pooling层区别与传统的max pooling或者avg pooling更加鲁棒，他是学习出来

的pooling层次只要知道这个即可，上述d表示feature map的每个feature，主要是学习F和b

1.2然后直接fc输出global feature，训练global feature是有监督，因此loss为：

local feature后边接入了两个网络

2.1 第一个是降维网络，叫做autoencoder，这个网络，简单理解如下：

如果输入F的feature map 经过autoencoder之后降低了维度还能还原成F的feature map，

那么就是完美降维了，因此使用auto encoder网络 （目的是为了使local feature更加紧凑），

那么该部分网络的loss为：

S是输入，s'就是上述反卷之后生成的，完美情况下s和s’应该一样

2.2 降维之后是注意力网络（目的使为了使feature只在特征明显的地方）

输出的是一个score map，可以认为使对特征的打分，loss为：

至此，整体网络训练loss为：

其他细节：在训练好之后实际使用的时候为了cover不同的scale，可以考虑对原始image 采样不同的分辨率，

模仿金字塔，然后取平均得到最终的global feature。

同样local feature也可以使用不同的分辨率，但是这里不能取平均，可以类似sift进行非极大值抑制得到

最终的local feature

喜欢加关注，长期关注更新视觉定位方面论文

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。