PETDet: 通过增强候选目标来提升二阶段细粒度目标检测的能力

导读

带有ResNet-50-FPN的PETDet在FAIR1M-v2.0上的AP达到了48.81%,大幅超越了强大的基线Oriented R-CNN,提升了4.91%。

5aa6068115e8c592956079ebbbb54770.png

摘要

细粒度目标检测(Fine-grained Object Detection, FGOD)在传统目标检测的基础上增加了细粒度识别的能力。在最近的两阶段FGOD方法中,区域提议(region proposal)作为连接检测与细粒度识别的关键环节。然而,现有方法忽视了一些从一般检测继承来的与提议相关的步骤并不完全适用于FGOD,这限制了从生成、表示到利用的多任务学习效果。在本文中,我们提出了PETDet(用于两阶段细粒度目标检测的提议增强),以更好地处理两阶段FGOD方法中的子任务。首先,提出了一种无锚点的质量导向提议网络(Quality Oriented Proposal Network, QOPN),该网络采用动态标签分配和基于注意力机制的分解来生成高质量的提议。此外,我们还提出了一种双线性通道融合网络(Bilinear Channel Fusion Network, BCFN)来提取提议的独立且具有区分性的特征。进一步地,我们设计了一种新颖的自适应识别损失(Adaptive Recognition Loss, ARL),为R-CNN头部提供指导,使其专注于高质量的提议。广泛的实验验证了PETDet的有效性。定量分析表明,带有ResNet50的PETDet在多种FGOD数据集上达到了最先进的性能,包括FAIR1Mv1.0(AP 42.96)、FAIR1M-v2.0(AP 48.81)、MAR20(AP 85.91)和ShipRSImageNet(AP 74.90)。所提出的方法还在准确性和推理速度之间实现了优异的兼容性。我们的代码和模型将在https://github.com/canoe-Z/PETDet发布。

0b06f45c09490e1ec7e69650cfd87b3a.png

1 介绍

细粒度目标检测(Fine-grained Object Detection, FGOD)旨在同时定位并准确识别细粒度子类别。例如,一个有效的细粒度检测器不仅需要正确检测出“飞机”这一粗分类别中的物体,还需要识别出具体的细粒度子类别,如空客A350或波音747。在航空图像中的FGOD具有广阔的应用前景,例如地球观测、城市监控和灾害控制等领域。然而,相比于一般的目标检测,FGOD由于类内变化大和类间差异模糊而更具挑战性。

随着高分辨率遥感技术的快速发展,尽管目标检测在遥感领域已有广泛的成功应用,但它已无法满足对细粒度识别的新需求。近年来,航空图像中的FGOD引起了研究社区的广泛关注。FGOD是一个多任务学习问题,包含前景背景分类、框回归和细粒度识别。近期的方法通常采用两阶段流水线通过稀疏区域提议来更好地分解任务。此外,航空图像中的物体往往具有不同的方向和长宽比,无法在水平方案下得到充分表示。目前的FGOD方法普遍执行定向检测,因为定向边界框可以促进精确的细粒度识别,并减少冗余背景区域。基于两阶段流水线和定向方案,许多工作致力于通过各种注意力机制或度量学习方法提高细粒度识别性能。例如,Zhou等人引入了基于注意力的组特征增强和次显著特征学习;Cheng等人提出了空间和通道变换器来捕获区分特征,并采用深度度量学习来增强细粒度类别的可分离性。

尽管取得了显著进展,但仍存在需要解决的重要局限性。从多任务学习的角度来看,妥善处理子任务之间的关系对于FGOD至关重要。对于两阶段方法,区域提议是连接检测和识别子任务的桥梁。然而,提议的重要性在先前的工作中被忽视了。在本研究中,我们不打算开发新的组件直接增强细粒度识别,而是试图通过增强区域提议来释放两阶段FGOD检测器的潜力,从而改善协同优化。我们认为一些为通用目标检测设计的与区域提议相关的步骤可能不适合FGOD,导致性能受限。具体来说,以下几个主要问题阻碍了两阶段FGOD方法的性能:

  1. 生成:对于两阶段FGOD方法而言,生成高质量的提议是最关键的任务之一。高质量的分类结果会减少误报的提议数量,使R-CNN头部能够更多地关注识别而非前景背景分类。高质量的定位可以使RoI特征更精确地对齐,并减少冗余背景。相反,定位不准确的提议可能会导致关键区分特征的缺失。

  2. 表示:在两阶段FGOD检测器中,第一阶段负责前景背景分类和提议定位,第二阶段处理细粒度识别和边界框细化。然而,两个阶段的特征都是从特征金字塔网络(FPN)中提取的,并未解耦,导致任务混淆。此外,基于单层特征的提议表示不足以支持第二阶段的准确细粒度识别。

  3. 利用:在之前的两阶段方法中,R-CNN头部接受由标准RPN生成的提议作为输入,其中包括大量误报。因此,需要通过手工设定正负样本比来采样RoI以减少不平衡。继承此过程,当前两阶段FGOD方法的第二阶段仍过多关注前景背景分类任务。即使提议质量得到了提升,高质量的正样本也无法被充分利用,这大大损害了细粒度识别的学习。

在本文中,我们专注于提议增强,并提出了一种名为PETDet(用于两阶段细粒度目标检测的提议增强)的新型两阶段FGOD方法。我们的PETDet包含三个主要组件,每个组件都针对上述与区域提议相关的问题之一。为了提高提议质量,我们引入了一个质量导向提议网络(QOPN),这是一个无锚点的定向提议网络,具有动态标签分配和基于注意力的分解功能。QOPN生成高质量的提议,以促进后续优化,仅略微增加计算成本。此外,受低秩双线性池化的启发,我们提出了一个双线性通道融合网络(BCFN),通过跨层级融合产生独立且具有区分性的特征。为了进一步提高提议利用率,我们为R-CNN头部设计了一种自适应识别损失(ARL)。ARL基于分类得分和细化IoU联合评估每个提议的质量,并对高质量样本分配更高的损失权重。由于ARL可以引导R-CNN头部关注某些样本,一些不合适的步骤如随机采样和提议的非最大抑制被剔除以最大化样本利用率。

广泛的实验结果证实了所提方法的有效性。具体来说,带有ResNet-50-FPN的PETDet在FAIR1M-v2.0上的AP达到了48.81%,大幅超越了强大的基线Oriented R-CNN,提升了4.91%,推断时间略有增加。我们的方法还可以在单类FGOD数据集如MAR20和ShipRSImageNet上达到最先进水平。如图1所示,与基线相比,PETDet对推断速度的影响微乎其微。可以得出结论,PETDet在准确性和效率方面表现出色。

本工作的主要贡献可以总结如下:

  1. 我们从一个新的角度探索了两阶段FGOD方法。通过探索限制FGOD多任务学习的三个普遍的提议相关瓶颈,我们提出了一种带有提议增强策略的新型FGOD框架,为改进现有的两阶段方法提供了指导。

  2. 我们提出了一种端到端的FGOD方法PETDet,其中设计了三个新颖的协同模块来解决FGOD内部目标检测和细粒度识别子任务之间的固有矛盾。

  3. 所提出的PETDet在多个FGOD数据集上创下了新纪录,包括FAIR1M-V1.0、FAIR1M-V2.0、MAR20和ShipRSImageNet。

本文其余部分组织如下。第二节介绍了与我们工作相关的研究进展概述。第三节介绍了所提出的PETDet的详细情况。第四节提供了关于该方法有效性的实验。最后,在第五节作出结论。

2 相关工作

在本节中,我们首先回顾了一般目标检测中的两阶段和单阶段方法的研究进展,以澄清它们与区域提议网络(RPN)和单阶段检测器的关系。然后,由于航空图像中的FGOD通常采用定向边界框,我们回顾了相关的工作。最后,我们讨论了FGOD领域的最新发展。

A. 一般目标检测

随着深度学习的发展,目标检测取得了显著进步。基于卷积的目标检测器可以分为两阶段和单阶段方法。两阶段方法采用区域提议网络(RPN)生成潜在的提议,然后在第二阶段进行基于RoI的框回归和分类。由于复杂的管道包含大量手工设计的组件,两阶段方法在最近的一般目标检测中不再是研究的重点。然而,对于FGOD任务,两阶段管道在任务分解方面具有独特的优势。

相比之下,单阶段检测器直接检测物体而不使用提议。为了解决前景背景类不平衡问题,引入了Focal Loss来降低分类良好的样本的权重。为了进一步简化管道,无锚点单阶段检测器使用锚点或关键点而不是手工设置的锚框。同时,许多先进的标签分配策略被提出,以动态选择正样本和负样本。此外,多种软标签分配方法也被提出,以减轻分类和定位之间的一致性问题。

对于两阶段FGOD方法,我们认为提议的质量至关重要。RPN像单阶段检测器一样进行密集预测,但由于相对简单的架构,导致预测质量较低。将对比学习应用于提议是一种潜在的方法来提高真正例率。然而,这种方法不能同时增强定位质量。在本研究中,受到两阶段检测的概率解释的启发,我们采用了现代单阶段检测器的先进设计来生成高质量的提议。

B. 定向目标检测

与一般目标检测相比,定向目标检测通过额外的角度预测扩展了检测器的功能。航空图像是定向检测器最流行的应用场景之一,在这些图像中,物体通常是任意方向的。基于卷积的定向检测器也可以分为两阶段和单阶段方法。两阶段方法基于区域提议执行定向检测。RRPN设置了旋转锚框来生成定向提议。Gliding Vertex通过滑动水平边界框的顶点来准确描述定向物体。Oriented R-CNN直接从水平锚框中学习定向提议,并使用六个参数表示法。

近年来,单阶段定向检测器也取得了令人印象深刻的进步。一些工作关注特征错位问题。S2ANet应用了一个锚框细化网络来生成定向锚框。R3Det通过学习对齐特征图来细化定向边界框。还有一些工作集中在定向边界框的表示上,以解决边界问题。GWD和KLD分别采用高斯瓦尔德斯坦距离和Kullback-Leibler散度来测量框之间的距离。PSC通过将不同周期的旋转周期性映射到不同频率的相位来预测方向。除了基于卷积的两阶段和单阶段方法之外,最近还提出了几种基于变换器的定向检测器来进行端到端检测。

定向边界框在表示任意方向的物体时包含较少的冗余区域。这为航空图像中的FGOD带来了极大的好处,因为减少背景冗余可以增强识别任务。因此,定向预测已成为FGOD方法中的流行选择。在本研究中,我们采用了强大的两阶段定向检测器Oriented R-CNN作为基线方法。

C. 细粒度目标检测

基于一般目标检测和定向目标检测的发展,遥感中的细粒度目标检测(FGOD)近年来受到了越来越多的关注。与基于分类任务的先前细粒度识别工作相比,FGOD要求同时进行定位和细粒度识别。当前的FGOD方法主要致力于缓解细粒度类别之间的语义混淆。周等人提出了一种基于注意力的组特征增强和子显著性特征学习方法。王等人引入了一个额外的骨干网络来学习细粒度分类,并采用知识蒸馏技术保持其轻量化。欧阳等人提出PCLDet,通过原型对比学习最大化类间距离并最小化类内距离。程等人提出SFRNet,该网络包含空间和通道变换器来捕捉判别特征,并采用度量学习来增强细粒度类别的可分离性。

此外,一些方法专门设计用于特定粗粒度类别的FGOD。对于细粒度船舶检测,欧阳等人构建了MGANet,该网络包含自注意力网络来利用全局和局部特征。对于细粒度飞机检测,曾等人提出的ISCL通过实例切换对比学习提取多种判别特征。

大多数最近的方法遵循两阶段范式,以便更好地分解FGOD的子任务。然而,它们的性能仍可能受到一些不恰当设计的区域提议的影响,包括提议生成、表示和利用,这些问题在之前的研究中被忽视。在我们的研究中,我们专注于提议增强而不是直接增强细粒度识别,以此克服由区域提议引起的障碍。

3 方法

在本节中,我们介绍了一种名为PETDet的两阶段细粒度目标检测(FGOD)方法。图2展示了所提出方法的整体框架。如图所示,PETDet包含三个用于提议增强的主要组件。我们将在第III-A节详细介绍质量导向提议网络(Quality Oriented Proposal Network)。双线性通道融合网络(Bilinear Channel Fusion Network)和自适应识别损失(Adaptive Recognition Loss)分别在第III-B节和第III-C节中介绍。

af9acbcce3f7b556761c296b059d9f36.png

A. 质量导向提议网络(Quality Oriented Proposal Network)

我们提出了质量导向提议网络(QOPN),以生成具有较少误报的高质量定位提议。这一想法受到了CenterNet2的启发,在其中单阶段目标检测器替换了传统的RPN(区域提议网络)以生成高质量的提议。然而,在第一阶段设置更多参数会导致各阶段间的不平衡,并对FGOD任务中的协同优化产生不利影响。相反,QOPN采用了单阶段检测器的先进训练策略而非直接替换。具体而言,QOPN采用无锚点(anchor-free)范式,基于先验点学习偏移和角度,类似于FCOS,而不是设置水平锚点来避免水平锚点难以与定向地面实况配对的问题。之后,QOPN应用了自适应训练样本选择(ATSS)进行动态标签分配,而不是设置固定的阈值,从而实现更少超参数下的自适应样本选择。通过这些改进,QOPN能够在没有额外可训练参数的情况下生成高质量的定向提议,减少背景冗余,便于细粒度识别。

为了进一步提高提议的质量,我们还增强了QOPN的网络架构。与单阶段检测器广泛使用的解耦分支不同,QOPN仅设置了几个共享的卷积层来避免计算量的显著增加。令表示FPN特征,其中 H , W 和  C 分别表示特征图的高度、宽度和通道数。我们应用连续的共享卷积层来提取多尺度特征 ,其中 N  表示3×3卷积层的数量。在我们的实现中,默认设置  N = 2 ,因为实验证明两个共享卷积层就足够了,具体细节见下文。

受TOOD的启发,我们提出了一个轻量级解耦注意力模块(Lightweight Decoupled Attention Module, LDAM),以较少的额外参数分解定位和分类任务。LDAM包括层注意力聚合(Layer Attention Aggregation, LAA)和简单空间注意力(Simple Spatial Attention, SSA)。图3展示了提出的LDAM。在LAA中,我们首先将 和 连接得到 ,并对连接后的特征执行全局平均池化。之后,应用一个1×1卷积层来学习层注意力图 。这里没有使用激活函数以减少计算量。另一个1×1卷积层用于从 减少维度到  C ,同时乘以层注意力图。结果,可以得到聚合特征 。然后,呈现了一个简单空间注意力(SSA)来增强空间分解。注意图由7×7卷积层在全局平均池化和全局最大池化图上生成。使用带有层缩放的残差路径以保持稳定性和加快收敛速度。

![image-20240913173236421](PETDet Proposal Enhancement for Two-Stage Fine-Grained Object Detection.assets/image-20240913173236421.png)

通过LDAM提取的解耦特征,分类分支进行类别无关的前景预测,输出维度为 ,而回归分支预测定向边界框的四个偏移和角度。在训练过程中,为了最大化样本利用率,QOPN放弃了随机采样,并使用Focal Loss减少已正确分类样本的权重。旋转GIoU损失用于框回归,因为基于IoU的损失不仅可以缓解损失函数与评估指标的一致性问题,还可以避免由角度周期性引起的问题。

此外,QOPN限制了特征图的输入尺度以减少计算成本。传统的RPN从FPN获取 {P2, P3, P4, P5, P6} 作为输入。然而,已经证明 P2 占用了大量计算资源但贡献较小,而高层次特征更为高效。尽管低层次特征有助于小物体的检测,但在FGOD任务中,高分辨率图像通常包含少量微小物体。在这种情况下,QOPN抛弃了P2,并像单阶段检测器一样在 {P3, P4, P5, P6, P7} 上生成提议。每一层的步幅分别为8、16、32、64和128。通过增大步幅,特征图上的锚点显著减少。这样,QOPN可以在不增加FLOPs的情况下包含更多参数。

B. 双线性通道融合网络(Bilinear Channel Fusion Network)

我们提出了双线性通道融合网络(BCFN)以增强提议的特征表示。其动机源于高层特征包含更多的语义信息,而低层特征更可能响应局部纹理和模式。在两阶段的FGOD方法中,第二阶段不仅需要精确框回归所需的语义信息,还需要高分辨率的空间细节以实现准确的细粒度识别。尽管有FPN(特征金字塔网络)的路径,特征表示仍然不够丰富。此外,从FPN中提取的用于两个阶段的特征如果没有解耦,则会因子任务之间的混淆而对细粒度识别造成损害。通过跨层融合,我们的BCFN能够以有效且高效的方式解决上述两个问题。

74b9142600301ef52c428236d5ae5d8d.png

如图4所示,我们的BCFN接受两个相邻层级的特征图作为输入以生成增强的跨层级特征。在BCFN的开始,我们提出了一个通道交互模块(CIM),通过通道级别的预融合来充分利用跨层级的信息。CIM执行通道替换而不引入新的训练参数,其可以表示为:

261db70f5924c8641e812000d95980c1.png

其中 和 分别表示低层和高层特征图。H , W  和 C 分别代表特征图的高度、宽度及通道数。Chunk (·) 是通道分割操作,而 Concat (·) 表示通道级联接操作。 表示通过最近邻插值上采样特征。

基于CIM的结果,我们执行双线性通道融合(BCF)以完成实际的跨层级特征融合任务。BCF受到双线性池化的启发,这是一种在细粒度图像分类任务中表现出良好性能的经典方法。然而,原始的双线性池化在计算二阶特征时消耗了大量的计算资源。为了解决这一问题,我们借鉴了多模态低秩双线性注意力网络(MLB)的思想,并通过两个线性映射和一个哈达玛乘积(Hadamard product)来实现BCF中的双线性操作,其可表示为:

ef98879943cfd10489ccb1bb3539f5b3.png

其中 f(·) ,g(·) ,和 h(·) 分别表示通过 卷积实现的通道级线性映射。符号 表示两个矩阵之间的哈达玛乘积。BCF 也可以被视为门控线性单元(GLU)的一种双线性变体,后者在自然语言处理中已被证明是有效的。BCF 与 MLB/GLU 的主要区别在于,由于 BCFN 应用于 RoI Pooling 之前,我们的设计中所有操作都是通道级的,这可以提取出强大的空间特征。在这种情况下,在专注于感兴趣区域之前,没有必要消耗额外的计算资源来进行空间操作。

考虑到低层特征在 FGOD 任务中起着更重要的作用,我们将原始的低层特征图作为捷径加到结果上。执行上述操作之后,可以获得双线性融合特征图 。具体来说,来自 FPN 的 {P2, P3, P4, P5, P6, P7} 被引入到 BCFN 中,并且将以 {4, 8, 16, 32, 64} 的步长生成 {B2, B3, B4, B5, B6} 来支持下一阶段的特征丰富和解耦。

C. 自适应识别损失

为了充分利用高质量的候选框,我们提出了自适应识别损失(ARL),主要解决当前两阶段 FGOD 方法中存在的两个问题。首先,标准的 R-CNN 头部忽略了不同候选框的质量差异。我们认为,在 FGOD 任务中,具有更高前景概率和更精确定位的高质量候选框应当被优先考虑。其次,候选框的非极大值抑制(NMS)对细粒度识别有负面影响。由于第一阶段分类和定位的错位,高得分的候选框可能没有准确的边界框。因此,定位良好的候选框可能会被移除。此外,旋转 NMS 是一个耗时的操作。替代的水平 NMS 有时会导致错误移除,尤其是在面对大量密集排列且长宽比大的候选框时。我们的 ARL 是基于 Focal Loss设计来解决上述问题的。标准的 Focal Loss 可以表述为:

a0256dceebfb1fede43394451d708489.png

其中 和 是两个超参数。 用于平衡正负样本的贡献,而 调整了对困难样本的关注程度。然而,Focal Loss 同等地对待正负样本,尽管在 FGOD 中正样本更有价值。此外,Focal Loss 通过交叉熵进行调节,忽略了影响细粒度识别的实际因素。鉴于此,我们为 ARL 设计了一种新的重新加权策略。提出了联合测量值 t 来根据其质量重新加权正样本,计算方式如下:

386476d7f28804a709721f627de2f88a.png

其中,s表示 QOPN 提供的提案分类得分。与主要强调召回率的原始 RPN 相比,我们的 QOPN 能够生成更可靠的得分,以精确衡量提案的前景概率质量。q 是第二阶段框回归后的输出 IoU,这表明了根据定位的质量。总体而言,ARL 能够基于第一阶段的分类和第二阶段的定位共同评估每个提案的质量。因此,我们的 ARL 可以表示为:

d3cac64c697c92d2c9858db7d4db07eb.png

其中,超参数 控制不同提案的方差。与 Focal Loss 相比,我们在 ARL 中移除了超参数 ,因为 同样可以调整正样本的整体权重。通过使用 ARL,我们不再对提案执行非极大值抑制(NMS),而是保留噪声提案以避免遗漏高质量提案。取消 NMS 也大大提升了推理速度。此外,由于 ARL 可以动态增加高质量提案的权重,我们在训练过程中不对提案进行采样,以最大化利用所有高质量提案。

4 实验

在本节中,我们设计了广泛的实验来评估我们的 PETDet 在多个 FGOD(细粒度目标检测)数据集上的性能。我们将我们的方法与最先进的定向目标检测方法进行比较,以展示我们的优越性。此外,我们进行了大量实验来验证每个模块的有效性和最佳参数设置。

A. 数据集

我们采用多个数据集来全面评估我们方法的有效性和鲁棒性,包括 FAIR1M  数据集、MAR20 数据集和 ShipRSImageNet  数据集。我们的主要实验结果是在 FAIR1M 上进行的,这是最大的多类 FGOD 数据集。MAR20 数据集和 ShipRSImageNet 数据集是单类 FGOD 数据集,分别用于飞机和船舶的检测与识别。我们采用这三个数据集来全面评估我们的方法在多类和单类 FGOD 任务中的表现。

  1. FAIR1M 数据集:FAIR1M 是目前最大的遥感细粒度目标检测数据集。图像尺寸范围从 1000 × 1000 到 10,000 × 10,000 像素。该数据集中所有对象都按 5 个类别(飞机、船舶、车辆、球场、道路)和 37 个子类别标注了 OBB(方向边界框)。除了其他三个类别(其他飞机、其他船舶和其他车辆)外,FAIR1M 还包含 34 个细粒度类别,如波音 737 (B737)、波音 777 (B777)、波音 747 (B747)、波音 787 (B787)、空客 A320 (A320) 等。FAIR1M 数据集有两个版本:FAIR1Mv1.0 和 FAIR1M-v2.0。1.0 版本包含 16488 张训练图像和 8137 张测试图像。与 FAIR1M-v1.0 相比,2.0 版本引入了一个额外的验证集和一个扩展的测试集,而训练集保持一致。

  2. MAR20 数据集:MAR20 是一个遥感军事飞机识别数据集,包含 3842 张图像,其中训练图像 1311 张,测试图像 2511 张。图像尺寸大多为 800 × 800 像素。MAR20 包含来自美国、俄罗斯及其他国家 60 座军用机场的 22341 架不同类型的飞机实例,所有实例都有水平边界框和方向边界框标注。

  3. ShipRSImageNet 数据集:ShipRSImageNet 是一个大规模细粒度船舶检测数据集。大多数数据收集自 Google Earth 并补充了 HRSC2016 的数据。ShipRSImageNet 的分辨率范围从 0.12 到 6 米,图像尺寸从 930 × 930 到 1024 × 1024 像素。该数据集包含超过 3435 张图像和 17,573 个船舶实例,实例标注有 HBB、OBB 和多边形。在 ShipRSImageNet 中,船舶分为四个层次,主要在第三层次上评估模型,其中船舶分为 50 个类型级别的细粒度类别。

B. 实现细节

我们使用 mmrotate 工具箱实现了我们的 PETDet 及其他对比模型。所有模型均在 4 块 NVIDIA GeForce RTX3090 GPU 上训练,总批量大小设为 8(每块 GPU 处理 2 张图像)。我们使用动量为 0.9 和权重衰减为 0.0001 的 SGD 作为默认优化参数。所有实验的初始学习率为 0.02。训练期间除随机翻转外未使用其他数据增强技术。

需要注意的是,不同数据集的某些实验设置有所不同。对于 FAIR1M,我们使用训练和验证集进行训练,其余部分用于测试。所有图像裁剪为 1024 × 1024 的补丁,重叠为 200,并且模型训练 12 个周期,在第 8 和第 11 个周期学习率降低 0.1 倍。对于 MAR20 和 ShipRSImageNet,采用官方的训练-测试划分。模型训练 36 个周期,在第 24 和第 33 个周期学习率降低 0.1 倍。MAR20 和 ShipRSImageNet 的输入图像尺寸分别为 800 × 800 和 1024 × 1024。

C. 评价指标

我们选择平均精度均值(AP)作为主要评价指标。每个类别的 AP 基于精确率(P)和召回率(R)计算得出,具体计算公式为:

defb1cffa645c3677652db93ad59d5cf.png

C. 评价指标

我们选择平均精度均值(AP)作为主要评价指标。每个类别的 AP 是基于精确率(P)和召回率(R)计算得出的,具体定义如下:

其中,TP、FP 和 FN 分别代表真正例、假正例和假反例。正样本和负样本的定义依赖于交并比(IoU)阈值,例如,AP50 使用 IoU=0.5 作为阈值。通过设置不同的置信度阈值来改变召回率,可以得到一系列不同 P 和 R 的 P-R 曲线。之后,可以通过每种类别的 P-R 曲线计算 AP。

需要注意的是,不同数据集在计算 AP 时的一些细节并不完全相同。对于 FAIR1M 数据集,根据 Pascal VOC 2012 指标,在线评估服务器仅报告 AP50。使用 34 个细粒度类别进行计算,并且不包括其他飞机、其他船只和其他车辆这三个类别的准确性。相反,对于 MAR20 和 ShipRSImageNet 数据集,AP50 由 Pascal VOC 2007 指标计算得出。此外,还计算了 AP75 和 AP50:95 来分析定位质量。除非另有说明,本文中的所有 AP 默认指的是 AP50 而不是 AP50:95,以便更关注细粒度识别性能。

为了评估我们的 QOPN 的有效性,使用不同 IoU 阈值和提议数量的平均召回率(AR)来评估生成提议的质量。我们还评估了 PETDet 及其他主流定向目标检测器的速度。实验是在单个 RTX 3090 GPU 上进行的,报告的帧率(FPS)结果包括后处理(如非极大抑制,NMS)的时间。

D. 与最先进方法的对比

在本节中,我们将 PETDet 与十多种主流旋转目标检测方法进行了对比,包括单阶段和两阶段方法。实验结果表明,我们的 PETDet 达到了最先进水平,并在多个数据集上显著超越了之前的方法

  1. 在 FAIR1M 上的定量和定性结果

对于 FAIR1M,主要实验结果是在 FAIR1M-v2.0 上完成的。我们报告了 11 种主流定向目标检测器以供比较,包括先进的两阶段方法如 Oriented R-CNN、ReDet 等。表 I 显示了定量结果,最佳性能以粗体突出显示。除了 ReDet 外,所有方法默认使用 ResNet50 作为骨干网络。由于 GWD 和 KLD 仅替换基于 RetinaNet 的回归损失,因此未报告其 FPS。从表中可以看出,我们的 PETDet 在 AP50 方面显著超过了所有当前的定向检测器,达到 48.81 AP50。在相同的实验设置下,PETDet 分别比基线 Oriented R-CNN 和前最优 RoI Transformer 提高了 4.91 AP 和 4.78 AP。PETDet 还能使用标准 ResNet50 超过使用更重的 ReResNet50 的 ReDet。与基线 Oriented R-CNN 相比,PETDet 保持了可比较的推理速度。此外,表 II 展示了每个特定细粒度类别的 AP50。对于某些具有挑战性的类别如 C919 和卡车拖拉机(TT),PETDet 相较于其他方法有显著优势。

818e39e01286623f3a1d5cba830d25cb.png

02c261aea5f92e985a1edb6e905b2603.png

44ccec4e81778ba13727cdd6acff98ba.png

图 6 展示了基于 FAIR1M-v2.0 验证集上从基线 Oriented R-CNN 和我们的 PETDet 获得的检测结果计算出的混淆矩阵。结果显示,PETDet 在大多数细粒度船只和车辆类别上的表现优于基线,但在飞机识别方面表现较差。然而,PETDet 几乎在所有类别上都实现了高于 Oriented R-CNN 的 AP。这种差异主要是由于指标计算的不同。AP 是一个基于排序的指标,同时考虑了精确率和召回率,而混淆矩阵只关注精确率,忽略了置信分数。在这种情况下,PETDet 倾向于产生更精细的检测结果。此外,我们的提案增强策略减少了 PETDet 中的小物体的假反例。同时,对高质量样本的关注也有助于细粒度识别。即使没有对比学习,我们的 PETDet 也能比基线 Oriented R-CNN 更接近真实标签地预测细粒度类别。

62bc8400817c80146f272ce494131fe4.png

表 III 报告了 FAIR1M-1.0 上的定量结果。请注意,PCLDet 报告的结果基于 0.001 的得分阈值,而非默认的 0.05。因此我们重新实现了 PCLDet 以进行公平比较。其他结果引自文献 [9]。尽管所有方法都使用 ResNet50 作为骨干网络,但一些方法如 DAL、RIDet、CFCNet 和 TIOE-Det 采用了更宽松的数据增强或训练设置。此外,一些对比方法使用了较小的批量大小,这可能会给结果带来额外的提升。实验结果表明,PETDet 在 FAIR1M-v1.0 上超越了之前的单阶段和两阶段定向目标检测器。与基于对比学习的方法 PCLDet 和 SFRNet 相比,我们的 PETDet 分别提高了 2.71 AP 和 2.22 AP。在 FAIR1M-v2.0 和 FAIR1M-v1.0 上的实验都表明,PETDet 在多类别 FGOD 任务中取得了显著改进。

8537cd9b1a7695f71f8c647c9a3126bd.png

  1. 在 MAR20 上的定量结果

为了进一步验证 PETDet 在单类别 FGOD 任务中的有效性,我们在 MAR20 数据集上进行了对比实验。MAR20 仅包含飞机目标,相较于 FAIR1M,检测难度相对较低。因此,准确的细粒度识别成为实现更高结果的关键。我们将 PETDet 与其他七种主流定向目标检测方法进行了比较,包括单阶段和两阶段方法。表 IV 显示了 MAR20 数据集上的实验结果。可以看出,PETDet 在 MAR20 数据集上也达到了最先进水平,超越了 Oriented R-CNN 3.20 AP。此外,PETDet 在 AP75 和 AP50:95 上显著优于所有其他方法,表明我们的 PETDet 可以显著提高定位质量。

7f9b22e77b5b49f809523f48d9f66e5f.png

  1. 在 ShipRSImageNet 上的定量结果

我们还在 ShipRSImageNet 数据集上进行了实验,结果如表 V 所示。我们提出的 PETDet 在此数据集上也表现出色。与 Oriented R-CNN 相比,PETDet 分别引入了 +3.14 AP50 和 +3.79 AP50:95 的增益。在 MAR20 和 ShipRSImageNet 上的实验表明,即使不针对特定类别设计,PETDet 仍然能够在单类别 FGOD 任务中实现竞争力的表现。

E. 消融研究

我们进行了广泛的实验以验证 PETDet 中提出模块的有效性。首先逐步去除每个组件以验证 QOPN、BCFN 和 ARL 的有效性。然后分别分析每个组件的具体有效性和最佳参数设置。除非另有说明,所有消融实验均在带有 ResNet-50 骨干网络的 FAIR1M-v2.0 上进行。

  1. 新组件的有效性

我们进行了组件级的消融分析,以彻底了解 PETDet 在各种 FGOD 数据集上的三个关键组件的效果。如表 VI 所示,所有三个组件 QOPN、BCFN 和 ARL 对每个数据集的性能都有所帮助。此外,值得注意的是,这三个组件在不同数据集上提供了不同的 AP 收益。在 FAIR1M-v2.0 和 MAR20 上,ARL 通过关注难样本和重要样本带来了最大的改进(+2.42 AP 和 +2.79 AP)。而在 ShipRSImageNet 上,由于存在大量密集排列的船只,具有较大长宽比的问题,QOPN 通过更好的提议生成明显受益(+1.40 AP)。

  1. QOPN 的消融

在 QOPN 中,LDAM 设计用于分解背景/前景分类和回归,包括层注意力聚合(LAA)和简单空间注意力(SSA)。为了深入探讨 LDAM 的重要性,我们对 QOPN 的不同网络架构进行了研究。表 VII 显示了实验结果,其中“堆叠卷积”表示共享分支中的卷积层数量。我们可以观察到,LAA 和 SSA 都能在忽略 FLOPs 和模型参数增量的情况下带来改进。得益于 LDAM,具有 2 层堆叠卷积的 QOPN 能够优于 4 层堆叠卷积的版本。

为了进一步证实 QOPN 生成提议质量的改进,我们在不同设置下评估了 QOPN 的召回率性能。具体来说,我们分别取 300、500 和 1000 个提议,并计算在 0.5、0.75 和 0.85 IoU 阈值下的召回率。然后,在 0.5 到 0.95 IoU 阈值范围内计算不同数量提议的 AR(平均召回率)。我们将 QOPN 与 Oriented R-CNN 中提出的 ORPN 进行了比较。实验在 FAIR1M-v2.0 验证集上进行,结果如表 VIII 所示。可以发现,QOPN 不仅显著提高了 0.5 IoU 阈值下的召回率,而且在更高的 IoU 阈值下也有显著收益。这表明 QOPN 可以生成更多位置准确的提议,这对于第二阶段的后续细粒度识别至关重要。

  1. BCFN 的消融

如表 IV 所示,我们基于 QOPN 探索了 BCFN 的不同网络设计。“高级”和“低级”分别指直接使用 {P3, P4, P5, P6, P7} 或 {P2, P3, P4, P5, P6} 作为第二阶段的输入。而“FPN 风格”代表用于比较的类似 FPN 的融合方法。具体而言,首先使用最近邻插值对高级特征图进行上采样,然后应用一个 1×1 卷积调整通道数。接着,对高级和低级特征图进行逐元素加法操作,最后通过 3×3 卷积减轻混叠效应。

我们的结果表明,单级别特征不足以应对 FGOD 任务。此外,低级别特征对于细粒度识别更加重要,因为它们包含了更丰富的局部纹理和模式。跨级别融合是一种有效的增强提议特征表示的方式。与 FPN 风格融合相比,我们的 BCFN 可以在更低的 FLOPs 和参数条件下实现更好的跨级别融合。

  1. 关于 ARL 的消融研究

当 ARL 应用于 R-CNN 头时,在我们的配置中去除了对候选框的非极大值抑制 (NMS)。基于 QOPN 提供的候选框,我们首先评估了在包含和不包含 NMS 的条件下的召回率,如表 X 所示。一方面,如果不执行 NMS,则 R50 随着候选框数量的减少而下降,因为一个真实的标签会占据更多的匹配候选框。然而,如果我们增加候选框的数量到 1000,则这种影响变得微不足道。另一方面,去除候选框上的 NMS 对高 IoU 的召回率及平均召回率有益。正如我们讨论的那样,由于第一阶段定位和分类之间的一致性问题,高分候选框可能不具备最准确的边界框。因此,不在候选框上执行 NMS 改善了高 IoU 阈值下的召回率。

表 XI 报告了不同后处理设置下交叉熵损失和 ARL 的对比结果。可以发现,将候选框数量减少到 1000 并不会显著影响性能。此外,当使用交叉熵损失时,通过去除候选框上的 NMS,在 2000 和 1000 个候选框的情况下分别实现了 AP 值提高 0.31 和 0.67。这些结果符合预期,因为 1000 个候选框已经足够实现高召回率,并且不执行 NMS 可以保留更多高质量的候选框。应用提出的 ARL 后,在 NMS 后保留 1000 个候选框的情况下,AP 值达到 47.05,超过了相同设置下交叉熵损失的 0.83 AP。进一步地,如果不去除 NMS,我们可以获得更大的额外提升,即 ARL 下的 1.76 AP 提升。这表明 ARL 能够更好地利用噪声候选框来促进细粒度识别学习。

我们还进行了实验,探讨了 ARL 中设定的两个超参数 γ 和 β 的鲁棒性。其中,γ 可以减少简单负样本的权重,而 β 则用于通过候选框的质量控制不同正样本之间的相对尺度。我们进行了网格搜索来研究这些超参数的影响,如表 XII 所示。可以观察到,当 γ 和 β 设定较小时,性能会下降。当 γ 在 1.5 到 2.0 之间变化,β 在 1.5 到 3.0 之间变化时,性能不再对这两个超参数敏感。我们在所有其他实验中默认采用 γ=1.5 和 β=2.5。在这种组合下,我们的 PETDet 在 FAIR1M-v2.0 数据集上实现了 48.81 的 AP 值。

需要注意的是,默认的候选框数量和超参数选择在其他数据集上略有不同。例如,在 MAR20 数据集中的检测任务较为简单,较少数量的候选框即可确保召回率。因此,我们将进入第二阶段的候选框数量减少,并降低 ARL 中的 β 来平衡正负样本间的权重。

5  结论

在本文中,我们从一个新的视角探索了两阶段 FGOD(细粒度物体检测)方法。首先,我们从多任务学习的角度强调了区域提议在 FGOD 中的重要性。因此,我们提出了一种改进的两阶段 FGOD 方法,称为 PETDet,该方法具有提议增强功能。我们的模型主要在三个方面做出了贡献:1) 提高了提议质量(QOPN 模块);2) 利用了跨层级判别特征(BCFN 模块);3) 重新加权提议以关注高质量样本(ARL 模块)。在四个通用数据集上的广泛实验结果以及每个模块的全面消融研究表明了 PETDet 的有效性。与其它方法相比,PETDet 不仅达到了最先进的性能,还在准确性与速度之间取得了良好的平衡。尽管 PETDet 表现优异,但其设计仅适用于两阶段流水线,并且仅在大规模数据集上进行了评估。未来的工作将从两个主要方面扩展我们的模型:1) 更加高效的架构,包括基于 Transformer 的方法;2) 少样本 FGOD 适应,以满足实际的数据稀缺应用场景。我们希望在 PETDet 中对多任务交互的探索能够为 FGOD 领域的进一步发展做出贡献。

fac55e965a94e3878e75e8699db3abb3.png

—END—

论文链接:https://arxiv.org/pdf/2312.10515v1

85d02508aac3f6d1c8fada98d21911f7.jpeg

请长按或扫描二维码关注本公众号

喜欢的话,请给我个在看吧

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值