D2-net:A Trainable CNN for Joint Description and Detection of Local Features

CVPR 2019 作者:DI-ENS(巴黎高等师范学校)+Inria(法国国立计算机及自动化研究院)+苏黎世

使用一个网络完成了像素级的稀疏特征点检测和稠密的特征描述任务(detect anddescribe)

Background

目前稀疏局部特征匹配:Detectthen describe(先检测特征点,再以特征点为中心形成局部快完成特征描述)方法效率高,占用的存储空间少。但是通常检测是基于低级的图像信息(例如:结构),因此面临外观变化大情况时,效果不理想。描述时则是基于关键点周围的块(相对较高级的图像信息),当关键点匹配失败时,描述符仍可以匹配成功,因此有许多的方法趋向于弱化关键点检测而加强稠密描述(内存占用增多)。

Superpoint也是用一个网络同时完成了检测和描述,但是superpoint分为两个branch完成,检测和描述相对独立。

图像检索任务也是需要找到对应的图像对,常见的方法:先对图像进项稠密的特征描述后聚合变成图像的特征描述再匹配;在稠密描述阶段的顶端增加注意力描述模块来选择关键点。这些方法都只检测了很少的特征点

目标检测任务在完成了特征提取后,得到一些列局部区域框和得分,再使用非极大值抑制得到置信度最高的框。这个思想与先检测后描述类似。

Motivation

目前的方法不能用一个分支完成检测和描述任务

Idea

用一个分支完成检测和描述

Method

CNN特征提取:VGG16

特征描述:从特征图中得到稠密的特征描述,再归一化

特征检测:论文”Particular objectretrieval with integral max-pooling of cnn activations.“中认为CNN得到的3D张量可以看作是n个2D的相应图,每个相应图对应一个检测器的结果。接下来对得到响应图进行后处理

  • 硬特征检测:对于传统的特征检测DoG,对相应图进行非局部最大抑制稀疏化。本文由于存在多个相应图,因此相当于对每个像素在多个响应图上选取最好的结果,并在该响应图上确定是否为局部最大值

  • 软特征检测:在训练过程中对硬特征检测进行了softened以便于反向传播。首先定义了一个soft local-max. score。其中N是相邻的9个像素

定义了一个软通道选择,计算每个描述子的ratio-to-max,用于模拟每个相应图的非极大抑制

既要考虑是相应图中最大的,也要是局部最大,因此综合计算两个得分的乘积最大值,最终获得单个得分图,再归一化

多尺度检测:

虽然CNN描述符因数据增强的预训练而具有一定程度的尺度不变性,但其对尺度变化并不具有内在不变性,在视角差异显著的情况下匹配往往会失败。因此本文使用了图像金字塔,对于不同分辨率的特征图F,将其resize后相加。将融合得到的图像作为上述步骤的输入完成检测和描述。为了防止特征重新检测,本文从最低分辨率开始检测,标记检测到的位置,上采样到高分辨率后这些被标记的区域不再检测。

训练损失:拓展的tripletmargin ranking loss:最小化对应点的距离,最大化不对应点的距离

正确的匹配对(positive):L2的范式

错误的匹配对:N1和N2是在正确匹配块之外的其余错误匹配块中最错的匹配(后面处理中,最小的最错匹配最大化)

tripletmargin ranking loss:

最终的损失函数:其中Sc是软检测得分

Experiment

图像匹配 :HPatches

3D重建:

定位:

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值