CFC-Net: A Critical Feature Capturing Network for Arbitrary-Oriented Object Detection in R-S Images

一、概述

1、背景

       大多基于CNN的目标检测框架首先通过卷积提取特征,然后在特征图上预设一系列先验框,随后再对这些先验框进行分类和回归得到物体的边界框。这些基于水平框的通用方法很难检测遥感图像中各种尺度、长宽比、任意方向的物体。

         一些基于旋转框的方法缓解了水平框在检测遥感图像上的难题,但它们很难与GT实现空间上的对齐,从而无法保证为分类和回归提供足够好的语义信息。虽然通过手工设计大量的覆盖不同面积、长宽比和方向的锚框可以实现与目标更好的空间上的对齐,但这往往会导致计算量的激增和大量负样本的存在。

         为了弄清遥感物体的复杂变化如何导致高性能的检测变得困难,作者引入了关键特征(critical feature)这一概念,指的是精确分类和定位所需的判别特征。然后讨论了其在目标检测中的作用,从而提出了一种一阶段的关键特征捕获网络CFC-Net(critical feature capturing network),从构建不同任务的特征表示、细化预设anchor和优化标签分配这三个方面提高了检测的精度。

2、关键特征的重要性

        图a和图b可视化CNN提取的特征,可以看到分类和回归的提取的特征并非总是均匀分布在目标上,而是可能分布在船头和船尾等局部区域。因此,预设的anchor需要捕获这些特定的关键特征以实现准确检测。图c表明只有74%的正样本在回归后与GT的IoU超过0.5(实现高质量),即由于正样本没有捕获回归任务的关键特征,导致即使是正样本也不能保证精确定位;图d表明实现精确分类的anchor中,有58%是通过负样本训练出来的,即意味着负样本很好捕捉了关键特征却未得到有效利用。 

          以上图分类任务为例,由于图中的anchor(红色框)与GT(未画出)的IoU>0.5,因此大多数会将图片中的anchor视为正样本。虽然anchor实现了准确的定位,但由于图b中的anchor没有捕捉到分类的关键特征(红色区域),而这些特征对于精确的船舶分类至关重要,因此经过回归后的预测框(绿色)可能会导致错误的分类。

二、模型架构 

       首先,通过FPN构建多尺度特征金字塔,然后通过PAM(polarization attention module)构建适应分类和回归的关键特征。回归分支上利用R-RAM(rotation anchor refinement module)对预设的水平框进行细化,以获得基于关键回归特征的高质量旋转框;再通过DAL(dynamic anchor learning)自适应地选择捕获了关键回归特征的高质量anchor作为正样本。

1、PAM(Polarization Attention Module)

(1)动机 

       大多数目标检测框架中,分类和回归都依赖于共享特征,然而有研究表明,使用共享特征会降低模型性能。比如,分类分支应该具有不同角度的旋转不变性,而回归分支应该对角度的变化敏感以实现准确的方向预测。因此提出PAM来避免不同任务之间的特征干扰,并有效提取特定任务的关键特征。 

(2)结构

 

       首先,对于分类和回归分支,从输入特征F中提取通道注意力图CA和空间注意力图SA: 

        然后,将两个注意力图相乘获得特定任务的注意力响应图M 

       接下来,通过特定任务的极化函数来构建任务敏感的关键特征表示。对于分类任务,关键特征应该更多地关注特征图上高响应的部分,而忽略可能用于定位或噪声干扰的不重要的部分;对于回归任务,应该更加关注边界特征,并抑制无关高激活区域的影响。 

                                        

     最后,为不同的任务构建包含不同关键特征的特征金字塔: 

(3)可视化结果 

 

        可视化结果如图所示,可以看到PAM有效地提取了不同任务所需的关键特征:提取的回归关键特征均匀分布在物体上,有助于识别物体边界并准确定位目标;分类关键特征则更多地集中在物体最容易识别的部分,避免物体其他部分的干扰,从而分类结果会更加准确。

 2、R-RAM(Rotation Anchor Refinement Module)

(1)动机  

       为了实现锚框和任意方向物体之间空间上的对齐,同时不再对锚框进行密集的铺设,从而提出了R-RAM从回归关键特征中获得与其能够更好对齐的旋转锚框。

(2)结构 

        每个位置预设一个用表示的水平框(初始角度设为0),然后根据R-RAM的回归参数将其细化为旋转框。具体来说,细化锚框的回归参数用表示,其表示方式如下图所示: 

(3)可视化结果 

 

      从上图可以看到,初始的水平框经过R-RAM调整后可以产生更准确的旋转框。 

3、DAL(Dynamic Anchor Learning) 

1)动机 

       分类的高置信度并不能保证检测的准确定位,反之同理。 

        上图a表明anchor的分类置信度和IoU之间正相关;对于图b而言,预测框的分类置信度和IoU之间仅存在弱相关性。作者认为分类和回归之间的差距主要来自于训练样本选择的不合理,并从关键特征的角度来解决这个问题。

 (2)新划分方法

        提出根据匹配度md(matching degree)的新方式来进行训练样本的划分。 

        其中,IoUin和IoUout分别为初始anchor与GT的IoU和经过回归后与GT的IoU;α和γ是用于加权的超参数;u是用于抑制回归过程中不确定性的惩罚项,不确定性抑制项 u会对回归后IoU变化大的那些样本进行惩罚。 

(3)正负样本的选择 

       匹配度md>0.6的anchors视为正样本,其余视为负样本。对于没有分配预测框的目标而言,选择匹配度最高的anchor作为正样本。 

(4)可视化结果 

        图中可以看出,DAL筛选出那些捕获了回归关键特征的anchor(黄色区域的那些),这些高质量的anchor在经过回归后可以获得更为准确的定位性能。  

三、损失函数 

      损失函数包括分类损失Lcls、anchor细化损失Lref和回归损失Lreg。 

 1、分类损失:

       使用focal loss在正负样本上进行训练;w是权重因子,根据正样本匹配度计算而来:

 

2、回归损失: 

        使用smooth L1 loss在正样本上进行训练。 

3、anchor细化损失: 

        R-RAM细化anchor时的损失,也使用上述的回归损失。 

四、实验结果 

1、Results on HRSC2016: 

        aug表示使用数据增强,ms表示多尺度训练和测试,NA是特征图每个位置处预设锚点的数量。当输入图像在没有数据增强的情况下重新缩放到 416 × 416 时,所提出的 CFC-Net 实现了 86.3% 的 mAP,这与许多当前的先进方法性能相当。将输入图像调整为 800 × 800 并采用数据增强后,模型性能达到了 88.6% 的 mAP,再通过多尺度训练和测试,模型在HRSC2016数据集上进一步达到了89.7%的mAP,实现了最先进的性能。

2、Results on DOTA: 

 

3、Results on UCAS-AOD :

 

 五、消融实验

...... 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值