Double FCOS: A Two-Stage Model UtilizingFCOS for Vehicle Detection in VariousRemote Sensing Scenes

最新推荐文章于 2024-07-11 17:24:21 发布

Wanderer001

最新推荐文章于 2024-07-11 17:24:21 发布

阅读量184

点赞数

文章标签：深度学习计算机视觉机器学习

本文链接：https://blog.csdn.net/weixin_36670529/article/details/130820530

版权

摘要

在各种遥感场景中进行车辆检测是一项具有挑战性的任务。各种遥感场景与多场景、多质量、多尺度和多类别的图像混杂在一起。车辆检测模型存在候选框不足、正建议采样弱和分类性能差的问题，导致其应用于各种场景时检测性能下降。更糟糕的是，没有这样一个覆盖各种场景的数据集，用于车辆检测。本文提出了一种称为双完全卷积一阶段目标检测（FCOS）的车辆检测模型和一个称为多场景、多质量、多尺度和多类别车辆数据集（4MVD）的车辆数据集，用于各种遥感场景中的车辆检测。双FCOS是一种基于FCOS的两阶段检测模型。在RPN阶段利用FCOS生成各种场景中的候选框。精心设计了两阶段正样本和负样本模型，以增强正建议采样效果，特别是在FCOS中忽略的微小或弱车辆。在RCNN阶段设计了一个两步分类模型，包括建议分类分支和点分类分支，以提高各种类型车辆之间的分类性能。4MVD是从各种遥感场景中收集的，用于评估双FCOS的性能。4MVD上的双FCOS对五类车辆检测的平均准确率为78.3%。大量实验表明，双FCOS显著提高了各种遥感场景下的车辆检测性能。

1、介绍

作为遥感中的一个关键领域，车辆检测可以提供车辆的大小、类型和空间分布等信息，这在智能城市、智能停车和战场态势感知中具有价值。因此，车辆检测已成为遥感领域的一个研究热点。最近公开发布了各种车辆数据集，如DLR3K、VEDAI、UCAS-AOD、DOTA、ITCCVD和EAGLE，并将基于这些数据集的检测模型，如fasterRCNN、YOLO V3和FCOS，引入到车辆检测中。不同的数据集呈现不同的特征，并且它们在图像场景、图像质量、图像空间分辨率和车辆类别方面有所不同。这些开放的车辆数据集中包含了一些清晰、生动、高空间分辨率的图像，并且这些图像中的车辆清晰、颜色信息丰富、体积大，是现有检测模型很容易检测到的例子。

然而，在这些开放的车辆数据集中也混合了许多模糊、灰色和低空间分辨率的图像，并且这些车辆是那些现有检测模型难以检测到的例子，例如Faster-RCNN、YOLO V3和FCOS。不足的生成方案和较差的方案分类性能导致这些硬例子的检测性能较差。此外，由于遥感场景的高度多样性，如多个场景、质量和规模，在实际的车辆场景中包含了更多的硬例子，并且大多数车辆场景包含各种车辆类别。遥感场景中存在多个场景，比发布的车辆数据集包含更高的场景多样性，如城市场景、邻里场景和野外场景。这些场景包含许多有价值的目标，尤其是野外场景中的军事目标。由于光学图像是从各种成像仪器中收集的，因此可以对多种质量进行可视化。这些图像的颜色、背景和质量各不相同。这些图像中显示了多个比例。在公开发布的车辆数据集中，空间分辨率是固定且高的，然而，它并不固定，并且在现实中变化很大。多种类型的车辆存在于不同的场景中，如民用和军用类型。此外，某些类别的车辆定义很差。

图1显示了各种遥感场景的一些示例，图2显示了各种车辆的一些示例。汽车是从DOTA收集的小型车辆，不同的汽车在不同比例的图像中尺寸不同。SUV是从UCAS-AOD收集的高空间分辨率图像中的大型汽车，SUV比大多数汽车都大。卡车是一种大型车辆，是从DOTA收集的。军用车辆（MV）是一种用于军用的卡车，特种军用车辆（SMV）包含一些特种军用卡车，如坦克、装甲车、拖车和其他野外场景中的特种军用车辆。测试数据集中有三种尺寸的车辆，即多新世、多质量、多尺度和多类别车辆数据集（4MVD）。汽车是一种小型车辆，其尺寸为10×20像素，这是车辆检测中的一个硬例子。MV和SMV是中等尺寸，并且具有40×60像素的尺寸。SUV和卡车是大型车辆，拥有100×60像素的尺寸。此外，野生场景中的MV和SMV具有模糊的轮廓和缺乏颜色，这通常是弱目标。

车辆检测最近得到了广泛的研究，但在各种情况下的车辆检测中仍面临许多挑战，如微小车辆检测、弱车辆检测、多尺度车辆检测、定向车辆滞留和多类车辆检测。使用单车数据集训练的检测模型存在候选框不足、阳性提议采样弱和分类性能差的问题，导致它们在各种场景中应用时检测性能下降。更糟糕的是，没有这样的数据集覆盖这些不同的场景，这对于基于深度学习的车辆检测模型来说是一个难题。

与单场景或单类车辆检测相比，各种场景、各种质量、各种规模、各种类别的车辆检测面临以下挑战。首先，在城市、社区和野外等各种场景中，建议生成存在障碍。不同场景中的车辆数量、清晰度、颜色和空间分辨率各不相同。由于不同的质量，不同质量、质量和空间分辨率的图像在不同的场景中混合在一起。检测模型中使用的预设锚点无法生成足够的目标检测建议，从而导致检测性能不佳。由于图像的空间分辨率范围较大，各种场景中的车辆尺寸变化较大。一些小型车辆拥挤不堪，很难被速度Faster RCNN的预设锚检测到。无锚检测模型，如FCOS和CenterNet，在没有预设锚参数的情况下，从特征图的每个点生成锚，适用于各种遥感图像中的微小车辆检测。其次，在大规模变化图像中的车辆检测中，正提议采样加剧，这对检测性能有负面影响。例如，DOTA中的汽车尺寸从10×10像素到100×100像素不等。微小和薄弱的目标在分类分支中得分较低，不可避免地会被忽视。最后，很难区分低质量图像中的各种类别，这是车辆识别的一个难题。野生场景中的一些图像包含低对比度、模糊的轮廓和较差的颜色信息。车辆检测得益于高空间分辨率和包含单一类型车辆的清晰图像。然而，在各种遥感场景中，低质量图像与高质量图像混合在一起，这使得车辆分类成为一个难题。

与单场景或单类车辆检测相比，各种场景、各种质量、各种规模、各种类别的车辆检测面临以下挑战。首先，在城市、社区和野外等各种场景中，建议生成存在障碍。不同场景中的车辆数量、清晰度、颜色和空间分辨率各不相同。由于不同的质量，不同质量、质量和空间分辨率的图像在不同的场景中混合在一起。检测模型中使用的预设锚点无法生成足够的目标检测建议，从而导致检测性能不佳。由于图像的空间分辨率范围较大，各种场景中的车辆尺寸变化较大。一些小型车辆拥挤不堪，很难被速度更快的RCNN的预设锚检测到。无锚检测模型，如FCOS和CenterNet，在没有预设锚参数的情况下，从特征图的每个点生成锚，适用于各种遥感图像中的微小车辆检测。其次，在大规模变化图像中的车辆检测中，正提议采样加剧，这对检测性能有负面影响。例如，DOTA中的汽车尺寸从10×10像素到100×100像素不等。微小和薄弱的目标在分类分支中得分较低，不可避免地会被忽视。最后，很难区分低质量图像中的各种类别，这是车辆识别的一个难题。野生场景中的一些图像包含低对比度、模糊的轮廓和较差的颜色信息。车辆检测得益于高空间分辨率和包含单一类型车辆的清晰图像。然而，在各种遥感场景中，低质量图像与高质量图像混合在一起，这使得车辆分类成为一个难题。

与单场景或单类车辆检测相比，各种场景、各种质量、各种规模、各种类别的车辆检测面临以下挑战。首先，在城市、社区和野外等各种场景中，提案生成存在障碍。不同场景中的车辆数量、清晰度、颜色和空间分辨率各不相同。由于不同的质量，不同质量、质量和空间分辨率的图像在不同的场景中混合在一起。检测模型中使用的预设锚点无法生成足够的目标检测建议，从而导致检测性能不佳。由于图像的空间分辨率范围较大，各种场景中的车辆尺寸变化较大。一些小型车辆拥挤不堪，很难被速度更快的RCNN的预设锚检测到。无锚检测模型，如FCOS[12]和CenterNet[29]，在没有预设锚参数的情况下，从特征图的每个点生成锚，适用于各种遥感图像中的微小车辆检测。其次，在大规模变化图像中的车辆检测中，正提议采样加剧，这对检测性能有负面影响。例如，DOTA中的汽车尺寸从10×10像素到100×100像素不等。微小和薄弱的目标在分类分支中得分较低，不可避免地会被忽视。最后，很难区分低质量图像中的各种类别，这是车辆识别的一个难题。野生场景中的一些图像包含低对比度、模糊的轮廓和较差的颜色信息。车辆检测得益于高空间分辨率和包含单一类型车辆的清晰图像。然而，在各种遥感场景中，低质量图像与高质量图像混合在一起，这使得车辆分类成为一个难题。

AVPN、NEOON和CRPN-SFNet等粗机制在大规模遥感图像中取得了良好的检测性能，尤其是在小目标和弱目标检测中。以这些方式使用的多分类策略有助于快速准确地区分建议。无锚模型的粗略到精细机制是最近流行的方法，如CenterNet2[32]和CPNDet[33]。与传统的两阶段检测模型（Faster R-CNN）和无锚模型（FCOS、CornerNet、RepPoints）相比，那些在RPN阶段具有无锚模型的两阶段检测模型实现了最佳的探测性能，尤其是在微小目标检测和密集目标检测中。

作为一个无锚模型，FCOS从特征图的每个点生成候选框，这有利于在车辆检测中生成足够的锚框。然而，FCOS存在正负采样弱和分类效果差的问题，这将通过多级检测工作来改善。FCOS是一种单级检测模型，利用聚焦损耗进行分类。与两阶段检测模型相比，FCOS对微小阳性样本的评分较低，不适合微小物体的检测。在本文CenterNet2和CPNDet中可以参考类似的考虑因素。这些模型试图引入除无锚模型之外的另一个阶段，以增加硬例子的得分。

在本文中，我们提出了一种称为双FCOS模型的两阶段检测模型，以解决各种遥感场景中车辆检测的上述问题，包括分别在RPN阶段和RCNN阶段的两个FCOS。在两阶段框架中设计了两阶段正负样本机制和两阶段分类模型（TSCM）。我们提出的两个贡献总结如下：

首先，针对各种遥感场景，设计了一个称为双FCOS的两阶段车辆检测模型。采用包括RPN阶段和RCNN阶段的两阶段检测网络作为车辆检测设计的有效平台。

以下三项贡献组织如下：

1） RPN阶段采用全卷积一阶段目标检测（FCOS）模型，在各种遥感场景中产生足够的正样本。RPN阶段的FCOS分类分支将再次被RCNN阶段的第二个FCOS用于正采样和负采样。

2）设计了一种两阶段正负样本机制（TPNSM），以增强FCOS中忽略的弱正提议和微小正提议采样。RPN阶段的正负样本模型（PNSM）用于保留更多的阳性样本，RCNN阶段的PNSM用于增加阳性样本在总样本中的比例，尤其是弱样本或微小样本。两级检测网络提供了一个平台，使用两个带有TPNSM的FCOS来提高微小和弱目标的检测性能。正样本和负样本分配了不同的损失函数，这有利于微小或弱目标的提议采样性能。

3） RCNN阶段的TSCM包含一个额外的提案分类分支和RCNN阶段FCOS的点分类分支，旨在提高提案分类性能。提案被分类，标签在提案分类分支中生成。标签用于指导RCNN阶段FCOS的点分类和回归，以生成最终输出。通过提案分类和点分类，对微小和薄弱的提案进行分类和精确定位。

2、相关工作

A.车辆数据集
最近公开发布了各种车辆数据集，如DLR3K、VEDAI、UCAS-AOD、ITCVD、DOTA和EAGLE，它们在图像场景、图像质量、图像空间分辨率和车辆类别方面各不相同。DLR 3K和VEDAI是两个流行的车辆数据集。DLR 3 K中图像的空间分辨率为0.13米。车辆被标记为汽车和卡车。VEDAI包括“飞机”、“船”、“露营车”、“汽车”、“皮卡”、“拖拉机”、“卡车”、“面包车”和“其他”类别。RGB和红外图像包含在VEDAI中。图像的分辨率很高，车辆的尺寸也很大。ITCVD类似于DLR 3 K，有29008辆车。EAGLE在单个城市场景中包含215896辆车。作为遥感中的重要类别之一，车辆也包含在一些遥感数据集中，如UCAS-AOD和DOTA。每个提出的车辆数据集只包含单个场景，无法覆盖遥感场景中的所有场景。一个包含各种场景的综合车辆数据集是受欢迎的，使用该数据集训练的检测模型可以在各种场景中获得良好的检测性能。

B.候选框生成
候选框的生成是车辆检测的第一步，它在车辆检测中发挥着至关重要的作用，尤其是在各种遥感场景中。提出了两种候选盒生成，即基于锚的模型和无锚的模型。在Faster RCNN和YOLO v3中使用的基于锚的模型使用预设锚来生成候选框，并且超参数是根据经验设置的。FCOS中使用的无锚模型从特征图的每个点生成建议，适合在各种场景中生成足够的候选框用于车辆检测。TridentNET在三个分支中使用膨胀卷积来处理尺度变化目标。

已经对具有不同候选框代表的车辆检测模型的有效性进行了一些评估。Adel等人评估了Faster R-CNN和YOLO V3的车辆检测性能。Zhong等人使用RPN进行车辆检测，得出车辆潜在区域。Zheng等人设计了一种基于Fast R-CNN的多尺度模型。[24]用于多空间分辨率遥感图像，通过学习超尺度特征表示来缓解极端尺度变化。Su等人主张在具有大规模变化的DOTA中使用多尺度关键点检测网络进行车辆检测。

无锚模型是一种密集的锚生成模型，如FCOS、CenterNet、CornerNet、FSAF和FoveaBox。这些模型生成具有关键点或锚点的锚点，这有利于密集生成锚点。尽管在候选框生成方面已经取得了许多进展，但稳健候选框生成的研究工作仍然受到欢迎。并且在各种场景中的建议生成性能仍然低于预期。许多微小或微弱的目标被忽略，并产生任何虚假警报。如何提高提案生成性能仍然是一个挑战。

E.车辆分类

由于遥感图像的大规模变化和质量的多样性，在各种遥感场景中对车辆进行分类是一项具有挑战性的任务。功能增强，如特殊骨干网（EfécientNet和Swin Transformer）和特殊分类损失，如ArcFace，是提高分类性能的两种常见方法。然而，它们都是为细粒度图像识别而设计的，不适用于各种场景中的车辆检测，尤其是微小或微弱的车辆检测。多级网络的粗到细机制是最近流行的细粒度分类方式。多级网络，如级联RCNN和CenterNet2，采用多个分类进行细粒度分类，这是一种有效的方式，可以引入车辆分类。

F.弱车辆和微型车辆检测

弱目标和微小目标是各种场景下车辆检测的两个典型的硬例子。弱目标清晰度低，颜色信息不足，周围环境复杂，导致特征表示较弱。微小的目标体积小、停车密集、外观障碍相似，导致特征表现不佳。常见物体检测中提出的许多技巧，如图像增强、强骨干、特征金字塔网络和回归损失函数，可以转移到车辆检测中，以提高弱车辆和微小车辆的检测性能。图像增强，如图像风格转移和超分辨率，通常用于处理弱目标或微小目标。在图像预处理中使用了其他图像增强方法，如马赛克和混合。为了增强目标的特征，已经提出了强骨干（CSPDarket）和特征金字塔网络（PAN）。尽管计算费用高昂，但在使用更强的骨干和特征金字塔网络进行微小或弱车辆检测方面仍然很有价值。采用新的回归损失（CIOU_Loss、GIOU_Loss、DIOU_nms）来获得更精确的检测结果。YOLO V5[50]集成了上述模块，在目标检测，特别是微小目标检测方面取得了良好的性能。作为YOLO的最新版本，YOLO V5在普通物体检测中很受欢迎，最近被引入到微小物体检测和车辆检测中，如TPH-YOLOv5[55]。这些技术已被证明是微小和弱物体检测的有效增强方法。然而，关于这些技术在各种场景中的车辆检测的检测性能改进的更多定量实验仍在期待中。

3、方法

双FCOS的总体结构如图3所示。双FCOS包含RPN阶段和RCNN阶段。在RPN阶段之前采用主干和FPN模块。FCOS用于从特征图的每个点生成足够的候选框。FCOS包含三个分支：中心性、分类和回归。分类分支被输入RCNN阶段的FCOS，以便通过RPN阶段的PNSM进行进一步的建议采样。RPN阶段的FCOS生成提案并进行初步区分，RCNN阶段的FCOS再次区分这些建议。TPNSM旨在增强弱目标和微小目标的采样。TPNSM分为两个PNSM，分别处于RPN阶段和RCNN阶段。第一次PNSM在分类分支之后进行，并在RCNN阶段输入FCOS。第二次PNSM在RCNN阶段与FCOS的分类分支一起执行。进行建议分类操作和点分类操作，以获得精确的分类性能。

A、FCOS

全卷积一级目标检测（FCOS）是一种流行的无锚检测模型。包含三个分支，如分类、中心和回归分支。图4显示了FCOS的结构。在FPN模型的输出上设计了一个特殊的检测头。在检测头中引入了三个分支。分类和中心度分支共享特征图。分类分支利用点分类损失函数。中心度分支使用点中心度损失函数，该函数指示该点是否为目标的中心。回归分支用于目标位置回归。FCOS中使用了三种损失函数。特征图的点分类损失函数：

其中， $L_{cls}$ 是论文Focal Loss。 $N_{pos}$ 表示正样本的数量， $p_{x,y}$ 是特征图中（x，y）点的分类得分， $c^*_{x,y}$ 是点（x，y）分类的标签。

特征图的中心度损失函数

其中 $L_{cls}$ 是交叉熵损失。 $c_{x,y}$ 是特征图中点（x，y）的中心度得分， $c^*_{x,y}$ 是点（x、y）中心度的基本事实。仅计算阳性样本的中心度。

特征图的回归损失函数

其中， $L_{reg}$ 是IOU损失。 $t_{x,y}$ 是特征图中点（x，y）的回归结果， $t^*_{x,y}$ 是点（x、y）回归的标签。是指示函数，如果则为1，否则为0。仅计算正样本进行位置回归。FCOS中的总损失函数如下：

在两阶段检测模型中使用了两个FCOS。第一个FCOS应用于RPN阶段，无需任何修改。第二个FCOS应用于RCNN阶段。保留点分类分支和回归分支。RCNN阶段检测模型中的点分类分支和建议分类分支将协同工作，以提高建议的分类性能。

FCOS在RPN阶段的总损失函数如下：

FCOS在RCNN阶段的总损失函数如下：

仅保留点分类分支。将在两阶段正样本和负样本模型中引入 $L_{rpn}p_{x,y}$ 。

B.两阶段正负样本模型

FCOS忽略了微小或微弱的实例，因为焦点损失只是大的目标问题。FCOS产生的许多微小或弱目标得分较低，焦点损失不适合微小和弱目标的检测。

两阶段正样本和负样本模型（TPNSM）专门用于这些硬样本。TPNSM分为两部分，一部分在RPN阶段，另一部分在RCNN阶段。ROI池是在第一个PNSM和第二个PNSM之间进行的。在第一个PNSM中引入了具有交叉熵损失的正样本监督，以保留更多的正目标。在第二个PNSM的分类损失函数中设置了阳性和阴性样本的大比例权重，以加强对阳性样本的监督，从而增加阳性样本在总体样本中的比例。两阶段检测模型中不同的损失函数有利于弱阳性样本的保存，同时消除阴性样本。图3显示了TPNSM。第一次PNSM中的阳性样本分类损失如下：

其中 $L_{cls}$ 是交叉熵损失，包括正样本和负样本。

第二个PNSM中的分类损失函数如下：

其中 $L_{cls}$ 是交叉熵损失。α是正样本与负样本的比率，这是实验中根据经验设定的。包括阳性样本和阴性样本。TPNSM中使用的总损失函数如下：

C.两步分类模型

FCOS使用点分类来区分每个类别，并设置阈值来区分每个点。将ROI池中的N×7×7特征图转换为N×1×1分数作为最终概率分布（N是类别数量，7×7是ROI池大小）。然而，在RCNN阶段的这种计算是一种间接和无监督的方式，这会减慢参考速度，并对检测性能产生负面影响。回归任务也面临着类似的问题。受大多数两阶段检测模型的启发，设计了一个基于RCNN阶段FCOS的分类分支和点分类分支的TSCM。提案分类分支用于直接优化提案分类。提案被分类，标签在提案分类分支中生成。并且利用了标签

FCOS使用点分类来区分每个类别，并设置阈值来区分每个点。将ROI池中的N×7×7特征图转换为N×1×1分数作为最终概率分布（N是类别数量，7×7是ROI池大小）。然而，在RCNN阶段的这种计算是一种间接和无监督的方式，这会减慢参考速度，并对检测性能产生负面影响。回归任务也面临着类似的问题。受大多数两阶段检测模型的启发，设计了一个基于RCNN阶段FCOS的分类分支和点分类分支的TSCM。提案分类分支用于直接优化提案分类。建议被分类，标签在建议分类分支中生成。标签用于指导RCNN阶段FCOS的点分类和回归，以生成最终输出。通过建议分类和点分类，对微小和薄弱的提案进行分类和精确定位。TSCM中的建议分类损失函数如下：

TSCM中的点分类损失函数是RCNN阶段FCOS的分类分支，即公式（6）。回归损失函数为公式（7）。TSCM的总损失如下：

D、全损函数
双FCOS模型中的总损失函数如下：

5、实验和讨论
尽管提出了各种车辆数据集，但没有这样的数据集覆盖各种场景。有必要收集覆盖各种场景的车辆数据集，以评估车辆检测模型在各种远程场景中的检测性能。本文提出了一个名为4MVD的数据集。4MVD，包含具有四个特征的各种遥感图像，即4MVD。包括五种常见类型的车辆，即轿车、SUV、卡车、MV和SMV。有些在现有的开放式车辆数据集中，有些是收集的，如MV和SMV。开放式车辆数据集和4MVD的详细比较如表I所示。

与开放式车辆数据集相比，4MVD包含了最多的车辆类别、最多种类的车辆质量、最大的空间分辨率范围和最多的场景，这使其成为各种远程场景中具有挑战性的车辆检测数据集。DOTA和UCAS-AOD中的车辆包含在4MVD中。4MVD中的一些图像是手动采集的，例如MV。涵盖了三个场景，即城市、社区和野生场景。城市场景和邻里场景是DOTA和UCAS-AOD中常见的场景，而野外场景是包含坦克和装甲车等几类重要车辆的宝贵场景。总共829幅和204幅图像分别被随机分配给训练集和测试集。以640×640的尺寸旋转和裁剪。列车数据集包含49836节车厢、5349辆SUV、18619辆卡车、10578辆MV和4118辆SMV。测试数据集包含7425辆轿车、1776辆SUV、2126辆卡车、884辆MV和160辆SMV。

在我们的实验中使用了一个带有1080Ti GPU的服务器。检测模型的学习率为0.001，降低到每10个时期0.1次。检测模型的批量大小为8，检测分支中的图像大小为640。我们使用预训练的ResNet-50[58]作为主干，并将FPN设置为四层。损失函数6中的α根据经验设置为20，经验实验列于表II中。与流行的检测任务类似，我们选择平均精度（mAP）作为目标检测结果的指标，即五种车辆的平均精度（AP）。IoU阈值设置为0.5。mAP是平均AP的缩写，用于多类对象检测的检测度量。AP是单类度量，是PR曲线（Precision和Recall之间的曲线）的面积。列车损耗收敛曲线如图7所示。每个历元都会记录所有参数。图7显示了训练在50个时期之后收敛。

进行了五个实验，包括在4MVD、硬盘和三个场景上的实验，双FCOS的烧蚀研究，以及双FCOS与最新检测模型的比较。已经在4MVD上进行了多场景和多类别车辆检测的定量实验。由于数据集内部的空间分辨率和图像质量存在较大差异，因此在4MVD上对多尺度和多质量车辆检测进行了定性实验。

A.4MVD实验

在4MVD上进行了四种检测模型，即FCOS、更快的RCNN、FCOS+RCNN和双FCOS，以评估我们提出的检测模型的有效性。FCOS是基线，更快的RCNN是一种流行的两阶段检测模型，FCOS+RCNN是我们巧妙设计的，与双FCOS形成对比。表III表明，更快的RCNN在卡车上实现了最佳性能，双FCOS在轿车、SUV、MV和SMV上获得了最佳性能。更重要的是，双FCOS在mAP中获得最高分数。4MVD中的汽车变化很大，颜色为灰色，清晰度较低。汽车是各种远程场景中车辆检测的一个硬例子。与双FCOS相比，更快的RCNN生成具有更多锚的提案，这在卡车检测中具有积极作用。卡车外形清晰，体积大，易于检测。然而，更快的RCNN忽略了微小或微弱的目标，如汽车和MV。由于我们提出的双FCOS在三类中获得了最好的性能，因此双FCOS的mAP得分最高，这是检测模型的一个重要指标。双FCOS在SUV和卡车等简单示例以及汽车、MV和SMV等硬示例中获得了良好的性能。

图5显示，与基本事实相比，双重FCOS保留了最多的目标，错误分类最少。FCOS省略了大多数微小或弱目标。更快的RCNN和FCOS+RCNN可以保持更多的微小目标。在4MVD中的实验表明，所提出的两阶段检测模型，双FCOS在各种遥感中的车辆检测中都取得了良好的性能。已经提出了一些检测工作，包括一系列提高车辆检测性能的技巧，如TridentNet[36]、Cascade RCNN[43]、YOLO V5[50]和Centernet2[32]。在车辆数据集中训练的那些检测模型通常被用作车辆检测模型。并且在车辆检测方面取得了良好的性能。将双FCOS与最新的车辆检测模型进行了比较，以证明双FCOS在各种遥感场景下的车辆检测中的有效性。TridentNet是一种单级检测模型，在三个分支中具有膨胀卷积。级联RCNN是三阶段检测工作，YOLO V5是YOLO的最新版本，CenterNet2是最近提出的两阶段检测工作。表III显示了五类车辆的检测性能。

表III表明，双FCOS在汽车、MV、SMV和mAP方面实现了最佳性能。YOLO V5在SUV中取得了最好的性能，并在五个车型类别中获得了最多的第二高分。Cascade RCNN在卡车检测中得分最高。YOLO V5采用了许多增强技巧，如Mosaic、Mixup、CSPNet、双头和SimOTA，提高了硬示例中的检测性能。Double FCOS在大多数车型类别中保持了最佳性能，比一些最新车型更好。总体指标mAP也保持了最高分数，这证明了双FCOS在车辆检测中的价值。

图5显示，与地面实况相比，双FCOS保留了最多的目标，并遭受了最小的误报。其他模型，如级联RCNN、YOLO V5和CenterNet2，存在目标缺失和分类错误的问题，这对检测性能不利。Cascade RCNN采用了更多的检测阶段，然而，它忽略了作为微小目标的汽车。

双FCOS与最新检测模型的比较表明，在各种遥感车辆检测中，与其他最新检测模式相比，双FCOS保持了有竞争力的检测性能。更重要的是，双FCOS在没有复杂检测技巧的情况下实现了与最新检测模型相似的检测性能。双FCOS的一些度量和综合度量甚至优于最新的检测模型。表III显示，与单级检测模型（如FCOS和YOLO V5）相比，两级结构中使用了更多的级，双FCOS的参数大小并非最小。由于我们的模型被设计为多级检测模型，并且在结构中增加了更多的分支，这不可避免地会增加权重。由于我们的目标是提高各种情况下的车辆检测性能，因此权重的增加幅度不太大是可以容忍的。

B.三个场景的实验
我们的实验考虑了三个场景：城市场景、邻里场景和野外场景。表IV说明了双FCOS在两个场景（城市、野外）和总体指标mAP中实现了最佳性能。双重FCOS在邻里场景中几乎没有受到影响。表IV显示了双FCOS在各种场景中用于车辆检测的有效性。图5说明了FCOS、更快的RCNN和FCOS+RCNN结果中的一些缺失检测和错误分类。与其他三种型号相比，双FCOS实现了最少的误报警和错误分类。三个场景包含城市场景、邻里场景和野外场景。表IV表明，双FCOS在所有三个场景中都实现了良好的性能。此外，它还实现了综合指标mAP的最佳性能，这证明了双FCOS在各种场景下的车辆检测中的有效性。城市地区有汽车和卡车，而且它们停放得很密集，很难被发现。城市区域在不同的空间分辨率下变化，这提出了车辆检测中的障碍。邻里场景具有很高的空间分辨率，大型车辆是很容易被检测到的例子。狂野的场景包括MV和SMV。它们都是小的、灰色的、模糊的。

C、硬质车辆的比较
从4MVD的测试数据集中故意选择了一个名为Hard vehicle的小型测试数据集（包括21张1000×5000像素大小的图像），以评估硬示例中的检测性能。涵盖了两种困难的例子，小于10×10像素的微小目标和模糊和灰色的弱目标。这两个目标都很难被检测到，因为它们本身的检测功能不足。表五显示了四种检测模型在硬车辆上的结果。表五列出了硬质车辆中五类车辆的统计数据。表六表明，双FCOS在三类车辆和总指标mAP上实现了最佳的检测性能。特别是，与轿车、SUV、MV和SMV的三种检测模型相比，双FCOS实现了显著的改进。汽车包含大规模变化目标，这些目标与微小目标混合在一起，所有四种检测模型都导致汽车检测性能下降。图6举例说明了四种检测模型在硬质车辆上的一些示例。一些小目标很容易被FCOS忽略，一些军用卡车被更快的RCNN和FCOS+RCNN错误地分类。这表明了提案的生成和分类对小目标或弱目标的检测很重要。在硬车辆上的实验表明，与流行的检测模型相比，双FCOS有助于改善微小或弱车辆的检测。

D、其他车辆数据集的比较
在这一部分中进行了两个车辆数据集，用于展示我们提出的模型双FCOS的检测性能，如DOTA和UCAS-AOD。DOTA包含两个车辆类别，UCAS-AOD包含一个类别。检测结果见表七。表VII列出了双FCOS在DOTA和UCAS-AOD数据集中获得的最高分数，这表明了在车辆检测中的稳定检测性能。

E、Double FCOS上的消融实验

双FCOS包含四个部分，如FCOS、两阶段检测工作、TPNSM和检测。包括六个损失函数，例如Lrpn（px，y）、Lrpn）tx，y、Lrpn（cx，y），Lrcnn（px，y）、Ldetection_cls（px，ey）和Ldetectin_reg（tx，y）。RPN阶段中的FCOS包含Lrpn（px，y）、Lrpn）（tx，y）和Lrpn。作为双FCOS的消融实验，进行了四个比较实验，如FCOS（包含Lrpn（px，y）、Lrpn（tx，y）和Lrpn rpn（tx，y）、Lrpn（cx，y）和Lrcnn（px，y）），双FCOS（FCOS+FCOS+TPNSM+TDetection，包含Lrpn（px，y）、Lrpn（tx，y），Lrpn，cx，y，Lrcnn（px，y）、Ldetection_cls（px，ey）和Ldetection_reg（tx、y））。表七列出了消融模型和损耗的对应表。表IX列出了四个比较实验的检测结果。图图7显示，与FCOS相比，FCOS+FCOS检测到更多的目标，这证明了两阶段检测工作的有效性。与FCOS+FCOS相比，FCOS+FC OS+TPNSM保留了更多的微小或弱目标，这证明了TPNSM有利于微小或弱车辆的检测。通过重新设计的检测模型，与其他三种模型相比，FCOS+FCOS+TPNSM+detection的错误分类最少，这证明了强大的分类分支有助于在各种远程场景中进行车辆识别。双FCOS的烧蚀研究表明，本文提出的三个模块（两阶段工作、TPNSM和检测）分别对改进车辆检测具有重要价值。此外，三个模块的双FCOS实现了最佳的检测性能，这表明每个模块在整个检测工作中都能保持有效性。

5、结论

车辆检测是遥感研究中的一个热门话题，许多公开发布的数据集只包含一种场景和一类车辆。然而，各种遥感场景包含更复杂的场景，其中车辆检测仍然是一项具有挑战性的任务。一种称为双FCOS的两阶段检测模型专门用于各种遥感场景中的车辆检测。RPN阶段的FCOS用于为各种场景中的车辆检测提供足够的积极建议。在第二个FCOS中设计了一个TPNSM来保留微小和弱的目标。在RCNN阶段提出TSCM，以实现提案的精确分类。提出了一个名为4MVD的数据集，该数据集包含广泛的场景和车辆，用于评估双FCOS。通过大量实验证明了双FCOS在各种遥感场景下对车辆检测的有效性。

Wanderer001

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Double FCOS: A Two-Stage Model UtilizingFCOS for Vehicle Detection in VariousRemote Sensing Scenes

摘要在各种遥感场景中进行车辆检测是一项具有挑战性的任务。各种遥感场景与多场景、多质量、多尺度和多类别的图像混杂在一起。车辆检测模型存在候选框不足、正建议采样弱和分类性能差的问题，导致其应用于各种场景时检测性能下降。更糟糕的是，没有这样一个覆盖各种场景的数据集，用于车辆检测。本文提出了一种称为双完全卷积一阶段目标检测（FCOS）的车辆检测模型和一个称为多场景、多质量、多尺度和多类别车辆数据集（4MVD）的车辆数据集，用于各种遥感场景中的车辆检测。双FCOS是一种基于FCOS的两阶段检测模型。在RPN阶段
复制链接

扫一扫