论文《Learning Spatial Fusion for Single-Shot Object Detection》解读

标题:基于学习空间融合的单发目标检测

 

摘要:

        金字塔形特征表示法是解决目标检测尺度变化挑战的常用方法。 但是,对于基于特征金字塔的单次检测器来说,不同特征尺度之间的不一致是主要限制。 在这项工作中,文章提出了一种新颖的数据驱动的金字塔特征融合策略,称为自适应空间特征融合(ASFF)。 它学习了在空间上过滤冲突信息以抑制不一致的方法,从而改善了特征的比例不变性,并且推理开销很低。 借助ASFF策略和可靠的YOLOv3基线,这种方法在MS COCO数据集上实现了最佳的速度与精度的折衷,在60 FPS时达到了38.1%AP,在45 FPS时达到了42.4%AP,在29 FPS时达到了43.9%AP。

文章概览:

       本文提出了一种自适应空间特征融合(ASFF)方法,以解决单镜头探测器特征金字塔的不一致性。该方法使网络能够直接学习如何在空间上过滤其他层次的特征,从而只保留有用的信息以进行组合。对于某一层次的特征,首先将其他层次的特征进行融合,调整到同一分辨率,然后对其进行训练,寻找最优融合。在每个空间位置,不同层次的特征被自适应地融合,也就是说,一些特征在这个位置携带矛盾的信息时可能被过滤掉,一些特征可能以更多的推理线索支配。

ASFF具有以下优点:

1)由于搜索最优融合的操作是差分的,因此在反向传播中可以方便地学习

2)它对主干模型是不可知的,适用于具有特征金字塔结构的单点探测器;

3)它的实现简单,增加的计算成本微乎其微。

 

网络结构

        

                                                 图一 自适应空间特征融合机制的图解说明

       文章选取一些采用了特征金字塔且是单阶段目标检测的网络,在这些网络上评价ASFF带来的性能提升,例如SSD、RetinaNet和YOLOv3。文中选取YOLOv3作为基准网络,并在这个网络上采用了时下流行的训练技巧和Anchor-free思想,具体的改进还有混合算法、余弦学习率、同步批处理规范化等技术。另外在平滑L1损失的基础上引入了一个IOU损失函数,这是为了更好的边框回归。  基于以上的改进,性能在COCO 2017验证集上提升了一些(38.8%mAP-50FPS、33.0%mAP-52FPS)。

接下来给出关于ASFF的定义,并对金字塔特征融合和ASFF的一致性进行了定性分析。

 

自适应空间特征融合

       和之前对多层特征采用element-wise加权与直接concat的方法不同,文中的思路是自适应地学习各尺度特征地图融合,具体的结构如图一所示。对于各层的特征用一个符号表示。由于YOLOv3中三个级别的特征具有不同的分辨率和不同的通道数,因此我们相应地修改了每个尺度的上采样和下采样策略。具体的不同的策略指的就是尺寸缩放的比例不同。

当选取某一层时,其他层的特征被resize到相同的尺寸,具体公式如下:

                                        

对于权重参数α,β和γ,则是通过resize后的level1~level3的特征图经过1×1的卷积得到的。并且参数α,β和γ经过concat之后通过softmax使得他们的范围都在[0,1]内并且和为1:

                                               

 

相容属性(Consistency Property)

文章通过梯度和反向传播来解释为什么ASFF会有效。首先以最基本的YOLOv3为例,加入FPN后通过链式法则我们知道在backward的时候梯度是这样计算的:

                                     

其中因为不同尺度的层之间的尺度变换无非就是up-sampling或者down-sampling,所以差不多可以将上面的公式简化为

                                 

进一步可以将上式简化为:

                                            

假设level 1(i,j)对应位置feature map上刚好有物体并且为正样本,那其他level上对应(i,j)位置上可能刚好为负样本,这样反向传播过程中梯度既包含了正样本又包含了负样本,这种不连续性会对梯度结果造成干扰,并且降低训练的效率。而通过ASFF的方式,反传的梯度表达式就变成了:

                                          

使用这三个系数,如果α2 ij→0和α3 ij→0,则梯度的不一致性可以协调。我们可以通过权重参数来控制,比如刚才那种情况,令α2和α3=0,则负样本的梯度不会结果造成干扰。另外这也解释了为什么特征融合的权重参数来源于输出特征+卷积,因为融合的权重参数和特征是息息相关的。而且由于融合参数可以通过标准的反向传播算法学习,因此经过精心调整的训练过程可以得出有效的系数。

实验结果

实验证明,ASFF比concat和sum的方式更有效,在baseline的基础上提升了mAP2个点之多。

                  

 

结果可视化

可视化结果进一步解释了ASFF的有效性,比如对于第一个斑马的图,可以看到其实最终斑马是在level1这个feature上被检测到的(明显标红),并且观察level1这一层的α,β和γ权重可以发现,对于图中斑马这种大物体,更容易被高层的特征捕捉到,因为对于大物体我们往往更需要语义特征。

而对于第二个羊群图来说,可以看到羊更多的是被level2和level3检测到,这也说明了对于小物体,我们更需要底层特征中的细粒度特征来辨别。

 

后续有新的收获会来补上的。

 

博主作为多目标识别方向的新人,正在大量阅读文献,收集点子,希望大家不吝赐教。

  • 4
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值