Unifying Deep Local and Global Features for Image Search(2020)(十四)

本文要解决的问题:image retrieval,室外,地标识别(GOOGLE之作,大神出品必属精品)
 
核心思想:融合global和local feature进行更加精确的image retrieval,并且在local feature
                  的训练不需要标注(无监督)
 
网络框架:
整个网络可以分为三部分:
    1.backbone 网络(就是传统的cnn网络vgg,提取feature map层)。
    2.取较深的一层feature map层,本文channel是2048进行global feature提取。
    3.取1中的浅层(channel=1024)进行 local feature提取。
 
整个pipeline如下:
    首先使global feature进行传统的image rerieval检索,例如top30
    然后在top30中使用local feature执行2d-2d匹配,使用inlier点个数对top30重新rank.
 
下边使网络细节:
  1. global 网络
            1.1 输出的feature map层(H*W*2048)首先经过Gem pooling:
                
            这个pooling层区别与传统的max pooling或者avg pooling更加鲁棒,他是学习出来
            的pooling层次只要知道这个即可,上述d表示feature map的每个feature,主要是学习F和b
 
            1.2然后直接fc输出global feature,训练global feature是有监督,因此loss为:
                
 
  1. local feature后边接入了两个网络
           2.1 第一个是降维网络,叫做autoencoder,这个网络,简单理解如下:
                    
                如果输入F的feature map 经过autoencoder之后降低了维度还能还原成F的feature map,
                那么就是完美降维了,因此使用auto encoder网络 (目的是为了使local feature更加紧凑),
                那么该部分网络的loss为:
              S是输入,s'就是上述反卷之后生成的,完美情况下s和s’应该一样
             2.2 降维之后是注意力网络(目的使为了使feature只在特征明显的地方)
                    输出的是一个score map,可以认为使对特征的打分,loss为:
                
                      
至此,整体网络训练loss为:
        
 
其他细节:在训练好之后实际使用的时候为了cover不同的scale,可以考虑对原始image 采样不同的分辨率,
                  模仿金字塔,然后取平均得到最终的global feature。
                同样local feature也可以使用不同的分辨率,但是这里不能取平均,可以类似sift进行非极大值抑制得到
                最终的local feature
 
喜欢加关注,长期关注更新视觉定位方面论文
    
 
            
  • 4
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值