论文翻译 | SCRDet++: Detecting Small, Cluttered and Rotated Objects via Instance-Level Feature Denoising

最新推荐文章于 2023-04-04 14:00:20 发布

Liaojiajia-2020

最新推荐文章于 2023-04-04 14:00:20 发布

阅读量4.5k

点赞数 12

分类专栏： # 论文阅读

论文阅读专栏收录该内容

19 篇文章 11 订阅

订阅专栏

在这里插入图片描述

Preface

论文地址：https://arxiv.org/pdf/2004.13316.pdf

Abstract

在现实世界中，小而杂乱的物体在现实世界中是很常见的，这对目标检测来说是一个挑战。当物体旋转时，问题更加明显，因为传统的探测器经常例行地在水平边界框中定位物体，使感兴趣的区域受到背景或附近交错物体的干扰。

本文首先创新性地将去噪思想引入到目标检测中。在特征图上进行实例级去噪，增强了对小而杂乱物体的检测能力。为了解决这一问题，我们在Smooth L1损失的基础上增加了一个新的IoU常数因子来解决这个长期存在的边界问题，我们分析了这一问题主要是由角的周期性和边的互换性引起的。通过结合这两个特性，我们提出的检测器称为SCRDet++。

本文对DOTA、DIOR、UCAS-AOD等大型航空影像公共数据集，以及自然影像数据集COCO、场景文本数据集ICDAR2015、小交通灯数据集BSTLD和我们新发布的S2TLD进行了大量的实验。结果表明了该方法的有效性。

项目页面：https://yangxue0827.github.io/SCRDet++.html

1 INTRODUCTION

视觉目标检测是计算机视觉的基本任务之一，基于卷积的神经网络（CNN）各种通用检测器[1]，[2]，[3]，[4]，[5]，[6]，[7]已经被设计出来。在包括MS COCO [8]和VOC2007 [9]等在内的公共Baseline上已经取得了可喜的结果。但是，大多数现有的探测器并没有特别注意野外鲁棒目标检测的一些常见方面：小尺寸、杂乱排列和任意方向。对于航空图像[10]，[11]，[12]，[13]而言，这些挑战尤为突出，因为对于航空应用的各种民用应用，航空图像已成为实际检测中的重要领域，比如：资源检测，环境监测和城市规划。

在遥感的背景下，我们进一步提出一些具体的讨论来作为本文的动机，如Fig.1所示。
在这里插入图片描述
应当注意，以下三个方面也适用于其他来源，例如：自然图像和场景文本。

小目标。航空影像通常包含被复杂的周围场景淹没的小物体。
杂乱排列。航拍图像中的车辆、船舶等物体往往密集排列，导致类间特征耦合和类内特征边界模糊。
任意方向。航空图像中的物体可以以不同的方向出现。旋转检测是有必要的，特别是考虑到高纵横比的问题：一个旋转对象的水平bbox比一个对齐的旋转对象更松散，这样的box包含了大量的背景或附近的杂乱物体作为干扰，而且非最大抑制对其影响较大，Fig.1(a)。

如上面所述，小/杂乱的对象问题可以与旋转方差交错。在本文中，我们的目标是通过寻找一种新的方法来解决第一个挑战，即消除来自背景和其他前景对象的噪声干扰。而对于旋转对准，则相应地设计了新的旋转损失。我们的两种技术都可以作为现有探测器[7]、[14]、[15]、[16]、[17]、[18]，以一种开箱即用方式。我们作进一步说明如下。

对于小而杂乱的目标检测，我们设计了一个降噪模块，实际上还没有研究对降噪进行目标检测。我们观察到两种相互正交的常见噪声：

图像级噪声：与对象无关。
实例级噪声：尤其经常以对象之间相互干扰以及背景干扰的形式出现。

这样的噪声在遥感的航拍图像中无处不在，并且很明显。实际上，去噪一直是图像处理中的长期任务[19]，[20]，[21]，[22]，尽管它们很少被指定用于目标检测，最终对原始图像进行去噪是为了增强图像，而不是后续的语义任务，尤其是端到端的去噪。

在本文中，我们探讨了进行实例级去噪（InLD）的方法，特别是在特征映射(即潜在层的输出由CNNs)中，以实现鲁棒检测。希望是减少类间特征耦合和类内干扰，同时阻止背景干扰。为此，指定了一种新颖的InLD组件以将不同目标类别的特征近似解耦到它们各自的通道中。同时，在空间域中，目标和背景的特征分别得到增强和减弱。值得注意的是，以上想法在概念上与近期针对图像级特征图去噪（ImLD）的工作有相似之处，但在本质上有所不同，后者是作为增强图像识别模型抗攻击的鲁棒性的一种方法，而不是作为位置敏感对象检测的一种方法。

请读者参考 Table5，快速验证我们的InLD能够比ImLD更有效地改进水平和旋转情况下的检测。
在这里插入图片描述
另一方面，作为与小/杂乱物体检测紧密相关的问题，通过设计新颖的IoU-Smooth L1损耗解决了精确的旋转估计问题。这是由于现有的基于回归的最新技术的旋转检测方法，例如：5个参数回归[18]，[23]，[24]，[25]遭受不连续边界的问题，这是固有的角的周期性(PoA)和可交换性的边缘(EoE)造成的（请参阅第3.3.2节）。我们对多个数据集进行了广泛的消融研究和实验，包括DOTA [10]，DIOR [11]，UCAS-AOD [27]这些航拍数据集以及自然图像数据集COCO [8]，场景文本数据集ICDAR2015 [28]，小型交通灯数据集BSTLD [29]和我们新发布的S2TLD，以说明我们技术能得到希望产生的效果。

本文的初步内容部分出现在会议版本SCRDet中（附上笔者对该论文的解读），其检测器名为SCRDet：Towards More Robust Detection for Small, Cluttered and Rotated Objects，我们扩展了改进的检测器SCRDet ++。

本文总体贡献：

据我们所知，我们是第一个提出了实例级噪声的概念（至少在目标检测的情况下），并在feature map中设计新颖的实例级降噪（InLD）模块。这是通过有监督的分割来实现的，在目标检测中，通过 $b b o x$ 近似地获得 $g r o u n d t r u t h$ 。该模块有效地解决了检测小尺寸、任意方向、分布密集，而计算量和参数增加却很少。
针对任意旋转物体的鲁棒处理，通过增加IoU常数因子，设计了改进的Smooth L1损失，该常数因子专门用于解决旋转边界盒回归的边界问题。
我们创建并发布一个真实的交通灯数据集：S²TLD。它由5786张图像组成，其中有14130个交通灯实例，涉及五个类别：红色，绿色，黄色，关闭和等待。它进一步验证了InLD的有效性，可从https://github.com/Thinklab-SJTU/S2TLD获得。
我们的方法在公共数据集上实现了最先进的性能，可在航拍图像等复杂场景中进行旋转检测。实验还表明，我们的InLD模块可以很容易地插入到现有的体系结构中，可以显著地改进对不同任务的检测。

2 RELATED WORK

我们首先讨论基于水平边界框的检测和旋转检测的现有检测器。然后介绍了一些在图像去噪和小物体检测方面的代表性工作。

2.1 Horizontal Region Object Detection

基于深度网络的目标检测器正在出现。R-CNN [1] 是基于CNN的检测管道的先驱。随后提出了基于区域的模型，例如Fast R-CNN [3]，Faster R-CNN [7] 和R-FCN [6]，它们实现了更高的性价比检测。SSD [4]，YOLO [5] 和RetinaNet [15] 是代表性的单阶段方法，它们的单阶段结构进一步提高了检测速度。除了基于锚的方法外，近年来许多 $a n c h o r - f r e e$ 也变得很流行。FCOS [31]，CornerNet [32]，CenterNet [33] 和ExtremeNet [34] 等对目标的一些关键点进行预测，并将其分组到 $b b o x$ 中，这些探测器也已应用于遥感[35]、[36]领域。R-P-Faster R-CNN[37] 在小数据集中取得了令人满意的性能。方法[38]结合了两个可变形卷积层[39]和基于区域的全卷积网络（R-FCN），进一步提高了检测精度。文献[40]采用自上而下和跳过连接产生一个高分辨率的单一高级功能映射，提高了可变形的Faster-R-CNN模型的性能。IoUAdaptive R-CNN [41] 通过新的IoU引导的检测网络减少了小目标信息的丢失。FMSSD [42] 在多个比例尺和相同比例尺特征图中聚合上下文信息。但是，在小尺寸、杂乱分布和任意旋转的航空图像中目标仍然具有挑战性，尤其是对于水平区域检测方法而言。

2.2 Arbitrary-Oriented Object Detection

对旋转检测的需求最近一直在增加，就像对航空图像和场景文本的需求一样。最近的进展主要是通过采用旋转 $b b o x$ 或四边形来表示多方向的对象。对于场景文本检测，RRPN [16] 使用旋转的RPN生成旋转的proposal，并进一步执行旋转的边界框回归。 TextBoxes ++ [43] 在SSD上采用了顶点回归。 RRD [44] 通过对旋转不变和旋转敏感特性的解耦分类和边界框回归，进一步改进了TextBoxes ++。EAST [45] 直接在完整的图像中预测任意方向和四边形的单词或文本行，通过单一的神经网络消除了不必要的中间步骤。最近的文本检测方法如FOTS[46] 表明，同时训练文本检测和识别可以大大提高检测性能。

相比之下，航空图像目标检测的难度更大：首先，多类别的目标检测需要检测器的泛化。第二，航拍图像中的小物体通常在大尺度上密集排列。第三，由于噪声的多样性，航空图像检测需要一种更加鲁棒的算法。ICN [23]，ROI Transformer[24] 和SCRDet [30] 代表两阶段航拍图像旋转检测器，它们主要是从特征提取的角度设计的。从结果来看，它们在小型或密集目标检测中都取得了良好的性能。与以前的方法相比，R³Det [18]和RSDet [47]是基于单阶段检测方法的，它更加注重精度和速度之间的权衡。Gliding Vertex[48] 和RSDet [47] 通过四边形回归预测实现了更精确的对象检测。Axis Learning [36] 和O²-DNet [35] 结合最新流行的 $a n c h o r - f r e e$ 思想，克服了基于锚点的检测方法中锚点过多的问题。

2.3 Image Denoising

深度学习在图像去噪中得到了广泛的关注。[19]将CNNs 图像去噪分为四种类型(参考文献)：

加性白噪声图像;
真实的噪声图像;
盲去噪
混合噪声图像，即噪声、模糊和低分辨率图像的组合。

此外，图像去噪还有助于提高其他计算机视觉任务的性能，如图像分类[20]、目标检测[21]、语义分割[22]等。除了图像噪声外，我们发现在目标检测领域也存在实例噪声。实例噪声描述目标感知噪声，它在目标检测中比目标不可知的图像噪声更广泛。本文将探讨图像级去噪和实例级去噪技术在复杂场景中目标检测中的应用。

2.4 Small Object Detection

小物体检测仍然是尚未解决的挑战。常见的小目标解决方案包括数据扩充[49]、多尺度特征融合[14]、[50]、定制采样策略[30]、[51]、[52]、生成对抗网络[53]和多尺度训练[54]等。在本文中，我们证明去噪也是一种提高小目标检测性能的有效手段。在复杂的场景中，小物体的特征信息经常被背景区域所淹没，背景区域往往包含大量的相似目标。与普通的图像级去噪不同，我们将使用实例级去噪来提高小物体的检测能力，这是一个新的视角。

本文主要考虑设计一个通用的实例级特征去噪模块，以提高在具有挑战性的航空图像以及自然图像和场景文本中的水平检测和旋转检测性能。此外，我们还设计了一个IoU-Smooth L1损耗来解决任意方向目标检测的边界问题，以获得更精确的旋转估计。

3 THE PROPOSED METHOD

3.1 Approach Overview

在这里插入图片描述
Fig.2说明了我们所提出的SCRDet ++的网络。

它主要由四个模块组成：

通过CNN提取特征，可以从现有检测器中提取不同形式的CNNs，例如[1]，[4]。
图像级去噪(ImLD)模块，用于去除常见的图像噪声，该模块是可选的，因为其效果可以被本文设计的后续InLD很好地抵消。
实例级去噪(InLD)模块（包括类间特征耦合和类内特征边界模糊)，用于抑制实例噪声。
预测模块，用于预测得分和(旋转)边界框的类别和回归框。

具体来说，我们首先在3.2节中描述了我们的主要技术，即实例级去噪模块(InLD)，其中进一步包含了与图像级去噪模块(ImLD)的比较。最后，我们详细介绍了3.3节中为旋转估计特别设计的SmoothL1损失的网络学习。值得注意的是，在实验中我们发现，与ImLD相比，InLD可以替代并发挥更有效的检测作用，使得ImLD成为我们网络中不可或缺的组成部分。

3.2 Instance-level Feature Map Denoising

在本小节中，我们提出了我们设计的实例级特征图去噪方法。为了强调实例级操作的重要性，我们进一步将其与feature map中的图像级去噪进行了比较，该方法也被用于[20]中的鲁棒图像识别模型学习。据我们所知，我们的方法是第一个使用(实例级)特征映射去噪进行对象检测的方法。去噪模块可以与其他模块一起端到端学习，针对目标检测任务进行优化。

3.2.1 Instance-Level Noise

实例级噪声一般是指物体之间的相互干扰，也指来自背景的干扰。我们从以下几个方面来讨论它的性质。特别是，如Fig.3所示，目标检测的对抗效应在特征映射中尤为明显，该特征映射需要对特征空间进行去噪，而不是对原始输入图像进行去噪。
在这里插入图片描述

形状类似目标的非目标在特征图中的响应较高，特别是对于小物体。（Fig.3 第一行）。
密集排列的杂乱目标往往会遇到类间特征耦合和类内特征边界模糊的问题。（Fig.3 第二行）。
被背景包围的对象响应不够突出。（Fig.3 第三行）。

3.2.2 Mathematical Modeling of Instance-Level Denoising

为了消除实例级噪声，一般可以参考注意力机制的思想，将其作为卷积响应映射重新加权的一种常用方法，以突出重要部分，并抑制非信息性部分，如spatial attention[55]和channel-wise attention[56]。我们发现，现有的航拍图像旋转检测器FADet[27]、SCRDet[30]、CAD-Det[25] 等，往往采用简单的注意力机制对输出进行重新加权，可归纳为以下一般形式：
在这里插入图片描述
其中 $X,Y\in \mathbb{R}^{C\times H\times W}$ 代表输入图像的两个特征图。注意函数 $A (X)$ 是指某一注意模块。符号 $⊙$ 是逐元素乘积。 $W_{s}\in \mathbb{R}^{ H\times W}$ 和 $W_{c}\in \mathbb{R}^{C}$ 表示空间权重和通道权重。 $w_{c}^{i}$ 表示第 $i$ 个通道的权重。在整篇论文中， $\cup$ 表示沿特征图通道连接张量的级联操作。

但是，Eq.1只是在空间域对目标和背景的特征相应进行简单的区分，而 $w_{c}^{i}$ 仅用来衡量每个通道的重要性。换句话说，没有考虑类内对象和类间对象之间的相互作用，这对于复杂场景的检测非常重要。我们旨在设计一种新的网络，该网络不仅可以区分物体与背景，还可以减弱相互干扰在对象之间。具体来说，我们提出在卷积网络的中间层添加实例级降噪（InLD）模块。关键是将不同目标类别的特征分离到各自的通道中，同时在空间域中分别增强和减弱物体和背景的特征。因此，我们的新公式如下Eq.2所示，其中考虑了对象类别的总数 $I$ ，并为背景增加了一个类别：

在这里插入图片描述

其中 $W_{InLD}\in \mathbb{R}^{C\times H\times W}$ 是分层权重。 $W_{InLD}^{i}\in \mathbb{R}^{C_{i}\times H\times W}$ 和 $X^{i}\in \mathbb{R}^{C_{i}\times H\times W}$ 代表与第 $i$ 个类别相对应的权重和特征响应，对于 $C=\sum_{i=1}^{I}C_{i}+C_{bg}$ ，其通道序列 $C_{i}$ 由表示。 $w_{j}^{i}$ 和 $x_{j}^{i}$ 分别表示沿第 $j$ 个通道的第 $i$ 个类别的权重和特征。

从Eq.1和Eq.2可以看出， $D_{InLD}(X)$ 可以近似为多个 $A^{i}(X^{i})$ 的组合，表示类别 $i$ 的注意力函数。 因此，我们有Eq.3：
在这里插入图片描述

在不失一般性的前提下，考虑一个包含属于第一个 $I_{0}$ ( $I_{0}≤I$ )类别的对象的图像。在本文中，我们目的是将上述公式分解为相互连接的三个部分（如Fig.5所示）：
在这里插入图片描述

在这里插入图片描述
对于背景和图像中不可见的类别，理想情况下，通过我们设计的降噪模块将响应过滤得尽可能小。从这个角度来看，Eq.4可以进一步解释为Eq.5：

其中 $O$ 表示针对每个类别 $O_{j}$ 和背景 $O_{bg}$ 的具有较小特征响应的张量。在以下小节中，我们将展示如何在类别之间实现上述分离的特征学习。

3.2.3 Implementation of Instance-Level Denoising

在此基础上，我们设计了一个实用的基于神经网络的实现。我们的分析从最简单的情况开始，每个类别都有一个单独的通道权重 $W_{InLD}^{i}$ （在Eq.2），即 $C_{i}=1$ 。在这种情况下，学习到的权重 $W_{InLD}$ 可以看作是针对特定类别的图像语义分割的结果(一个三维的单一热向量)。然后，可以通过语义分割来指导 $D_{InLD}$ 中更多权重通道 $W_{InLD}$ ，如图2和图5所示。

在语义分割任务中，输出层前一层的每个类别的特征响应在通道维上往往是分离的，前景和背景的特征响应在空间维上也是极化的。因此，可以对Eq. 5中的操作采用语义分割网络。持有这种语义分割观点的另一个优点是，它可以以端到端监督的方式进行，其学习的去噪权比基于自我关注的替代[55]、[56]更可靠、更有效。

在Fig.2中，我们给出了具体的实现如下。输入特征图首先通过N个扩展卷积[57]和1×1个卷积层对接受域进行扩展。例如，N的值取P3到P7金字塔层上{1,1,1,1,1}的数字，在我们的实验中分别进行设置。然后通过两个并行的1×1卷积层对feature map进行处理，得到两个重要的输出。使用一个输出(三维单热点地物图)进行粗略的多类别分割，检测任务中标注的边界框可作为近似的ground truth。希望该输出将引导其他输出进入降噪特征图。

如Fig.5所示，将该去噪特征图与原始特征图结合（通过点运算）得到最终解耦的特征图。目的有两个方面：沿着通道维度，不同对象类别（背景除外）的类间特征响应基本上被分离成各自的通道；在空间维度上，由于增强了目标区域的特征响应，弱化了背景，使得类内特征边界变尖。因此，可以缓解本小节开头提到的三个问题。

在这里插入图片描述
如图2的右上角所示，分类模型被分解为两个术语：对象性和类别分类，公式为：

在这里插入图片描述

此概率图 $P (o b j e c t)$ 与每个特征点的锚点是否是一个对象有关。尽管上述解耦后的特征直接用于目标分类 $P(class_{i}|object)$ 。（旋转回归，将在3.3节中讨论）

在训练过程中，使用概率图 $P (o b j e c t)$ 作为回归损失的权重(如Eq. 10所示)，使得那些模棱两可的正样本的权重更小，给予高质量的正样本更多的关注。我们在实验中发现，引入概率图可以加快模型的收敛速度，提高检测结果，如 Table2 所示。
在这里插入图片描述

3.2.4 Comparison with Image-Level Denoising

图像去噪是图像处理中的一项基本任务，可能会对图像识别产生显着影响，最近在[20]中进行了研究和验证。具体来说，工作[20]表明，由网络层执行的转换会加剧扰动，而幻觉激活可以压倒由真实信号引起的激活，这导致更糟糕的预测。

这里我们也在航拍图像的背景下研究了这个问题，我们直接借用了图像级去噪模型[20]。如Fig.4所示，我们在原始航拍图像上添加了高斯噪声，并与干净的航拍图像进行比较。
在对干净图像进行训练的同一检测网络中，从res3块的同一通道提取干净图像和有噪声图像的同一特征映射进行可视化。虽然噪音几乎没有影响，而且肉眼很难分辨。但是，在feature map中更加明显的是，物体逐渐被淹没在背景中，或者物体之间的边界变得模糊。
在这里插入图片描述

由于卷积运算和传统的去噪滤波器高度相关，我们采用了一种潜在的解决方案[20]，它利用卷积层来模拟不同类型的差分滤波器，如非局部均值、双边滤波、均值滤波和中值滤波。在本文中，受这些在对抗性攻击[20]中成功操作的启发，我们对这些用于目标检测的差异操作进行了迁移和扩展。我们在Fig.2中展示了ImLD的一般形式。它通过去噪操作处理输入特征（例如非局部均值或其他变体）。去噪后的表示首先由1×1卷积层处理，然后通过残差连接添加到模块输入中。 ImLD的仿真表示如下：
在这里插入图片描述
其中 $F (X)$ 是某个过滤器的输出。 $X,Y\in \mathbb{R}^{C\times H\times W}$ 表示输入图像的整个特征图。table1显示了施加的去噪模块的效果。在接下来的文章中，我们进一步证明了InLD模块在检测方面的改进更为显著，其效果可以很好地覆盖第一级图像。
在这里插入图片描述

3.3 Loss Function Design and Learning

3.3.1 Horizontal Object Detection

同时考虑水平和旋转检测设置。对于旋转检测，我们需要重新定义边界框的表示。Fig.6（a）给出了90度角表示范围的矩形定义[18]，[30]，[47]，[58]，[59]。 $θ$ 表示与x轴的锐角，在另一侧，我们将其称为 $w$ 。注意，OpenCV https://opencv.org/ 也特别采用了此定义。
在这里插入图片描述

边界框的回归公式为：
在这里插入图片描述

在 $x, y, w, h, θ$ 分别表示框的中心坐标、宽度、高度和角度。变量 $x$ 、 $x_{a}$ 、 $x^{'}$ 分别表示是ground truth、锚定框和预测框（同样对于 $y, w, h$ 和 $θ$ ）。

对于水平检测，使用多任务丢失，其定义如下：
在这里插入图片描述
其中，

$N$ 表示anchor个数， $t_{n}'$ 表示一个二进制值( $t_{n}'=1$ 表示前景， $t_{n}'=0$ 表示背景，背景不回归)。
$p(object_{n})$ 表示当前anchor是目标的概率。
$v_{nj}'$ 为第 $n$ 个anchor点的预测偏移量， $v_{nj}$ 为第 $n$ 个anchor点与其匹配的ground-truth之间的目标向量。
$t_{n}$ 表示对象的标签， $p_{n}$ 表示通过sigmoid函数计算得到的各类的概率分布
$u_{ij}$ ， $u_{ij}'$ 分别表示掩模像素的标号和预测。这些超参数的 $\lambda _{reg}$ 、 $\lambda _{cls}$ 、 $\lambda _{InLD}$ 权重默认设置为1。
分类损失 $L _{cls}$ 用focal loss定义。
回归损失 $L _{reg}$ 用Smooth-L1损失定义。
InLD损失 $L _{InLD}$ 是像素级softmax交叉熵。

3.3.2 Rotation Object Detection

相比之下，旋转检测需要仔细处理边界问题。其中，存在角度回归的边界问题，如Fig.7(a)所示。
在这里插入图片描述
结果表明，这是一种理想的回归形式(蓝色方框逆时针旋转到红色方框)，但由于角的周期性(PoA)和边缘的互换性(EoE)，这种情况的损失非常大。因此，需要对模型进行其他复杂形式的回归，如Fig.7(b)所示(如将 $w$ 和 $h$ 缩放时顺时针旋转的蓝盒)，增加了回归的难度，如Fig.8(a)所示。
在这里插入图片描述
Fig.8.两个损失的检测结果。对于这种密集排列的情况，角度估计误差也会使分类更加困难。

我们引入IoU常数因子 $\frac{|-log(IoU)|}{|L_{reg}(v_{j}^{'},v_{j})|}$ 在传统的Smooth-L1损失中，完美的解决了这个问题，如Eq.11所示。这个新的损失函数被命名为 IoU-smooth L1损失。可以看出，在边界情况下，损失函数约等于 $∣ - l o g (I o U) ∣ \approx 0$ ，消除了由 $L_{reg}(v_{j}^{'},v_{j}|$ 引起的损失的突然增加，如Fig.8(b)所示。

新的回归损失可分为两部分: $\frac{L_{reg}(v_{j}^{'},v_{j})}{|L_{reg}(v_{j}^{'},v_{j})|}$ |决定梯度传播的方向， $∣ - l o g (I o U) ∣$ 表示梯度的大小。此外，使用IoU优化定位精度符合IoU主导的度量，比坐标回归更直观有效。
在这里插入图片描述
其中，IoU表示预测框和ground truth的重叠区域。

4 EXPERIMENTS

实验在一台具有GeForce RTX 2080 Ti和11G内存的服务器上进行。我们首先给出数据集的描述，然后使用这些数据集来验证所提方法的优点。源代码可以在https: //github.com/SJTU-Thinklab-Det/DOTA-DOAI找到。

4.1 Datasets and Protocols

我们从航空图像，自然图像和场景文本中选择各种各样的公共数据集进行评估。详情如下:

DOTA [10]：

DOTA是一个用于对象检测的复杂航空图像数据集，其中包含各种尺度、方向和形状的对象。DOTA包含2,806张航拍图像和来自不同传感器和平台的15个常见对象类别。完全注释的DOTA基准包含188,282个实例，每个实例都用任意四边形标记。
DOTA有两个检测任务：水平边界框(HBB)和定向边界框(OBB)。
训练集、验证集和测试集分别占整个数据集的1/2、1/6、1/3。由于图像大小的范围在800×800到4000×4000像素之间，我们将图像分成重叠150像素的600×600个子图像，并将其缩放到800×800。通过所有这些过程，我们获得了大约27,000个补丁。模型共经过135k迭代训练，在81k和108k迭代过程中，学习速率从5e-4到5e-6不断变化。
类别的简称定义为(缩写全称)：PL-Plane, BD-Baseball diamond, BR-Bridge, GTFGround field track, SV-Small vehicle, LV-Large vehicle, SH-Ship, TC -Tennis court, BC-Basketballcour，ST-Storage tank, sbf - football -ball field, RA-Roundabout, HA-Harbor, SP-Swimming pool, HC-Helicopter。

DIOR[11]：

DIOR是另一个由水平边界框标记的大型航空影像数据集。它包含23,463张图像和190,288个实例，涵盖20个对象类。DIOR的对象大小变化很大，不仅在空间分辨率方面，而且在对象之间的类间和类内大小变化方面也是如此。 DIOR的复杂性还反映在不同的成像条件，天气、季节和图像质量下，并且具有很高的类间相似性和类内多样性。
DIOR的训练方案与DOTA基本一致。
实验中类别的简称c1-c20定义为：飞机，机场，棒球场，篮球场，桥梁，烟囱，水坝，高速公路服务区，高速公路收费站，高尔夫球场，地面跑道，港口，立交桥，船舶，体育馆，储罐，网球场，火车站，车辆和风车。

UCAS-AOD [80]：

UCAS-AOD包含约659×1280像素的1,510张航拍图像，包含两类14596个实例。根据[10]，[23]，我们随机选择了1,110个用于训练，400个用于测试。

BSTLD [29]：

BSTLD包含720×1280像素分辨率的13,427张相机图像，包含24,000个带注释的小交通灯。具体来说，每2秒用15个标签对5,093个训练图像进行注释，但是只有3,153个图像包含该实例，大约为10,756。
许多类别的实例很少，因此我们将它们重新分为4类（红色，黄色，绿色，关闭）。相比之下，以大约15 fps的速度通过4个标签注释了8,334张连续的测试图像。
在本文中，我们仅使用BSTLD的训练集，该训练集的中间交通灯宽度为8.6像素。
在实验中，我们按照6：4的比例将BSTLD训练集分为训练集和测试集。请注意，我们使用具有P2功能级别和FPN的RetinaNet来验证InLD，并将输入图像的大小缩放为720×1280。

S²TLD：

S²TLD2是我们公布的新数据集收集和注释的交通灯数据集，其中包含5,786张图像，大约为1080×1920像素（1,222张图像）和720×1280像素（4,564张图像）。它还包含14,130个实例的5个类别（即红色，黄色，绿色，关闭，等待）。这些场景涵盖各种照明、天气和交通状况，包括繁忙的街道场景，市区内密集的走走停停的交通，照明/曝光的剧烈变化，闪烁/波动的交通灯，多个可见的交通灯，图像部分可以将其与交通灯（例如大型圆形尾灯）混淆，如Fig.9所示。
训练策略与BSTLD一致。

Fig.9.本文中发布的我们收集的S2TLD数据集中的五个类别以及不同的光照和天气条件的图示。

除了上述数据集，我们还使用自然图像数据集COCO [8]和场景文本数据集ICDAR2015[28]作进一步评估。

除非另有说明，否则实验默认情况下由ResNet50[60]初始化。所有实验的权值衰减和动量分别设置为0.0001和0.9。我们使用了超过8个GPU的MomentumOptimizer，每个minibatch总共8张图片。我们遵循COCO的标准评估协议，而对于其他数据集，基于RetinaNet的方法的anchor点在P3到P7的金字塔水平上分别有322到5122的区域。在每个金字塔级别，我们使用七个纵横比 $\begin{Bmatrix}{1,1/2,2,1/3,3,5,1/5}\end{Bmatrix}$ 和三个尺度 ${2^{0},2^{1/3},2^{2/3}}$ 的anchor。对于旋转锚点为基础的方法(RetinaNet-R)，该角度是由一个从−90°到−15°的等差级数，间隔15°。

4.2 Ablation Study

消融研究包括对图像级去噪（ImLD）和实例级去噪（InLD）的效果及其组合的详细评估。

图像级去噪效果。我们在DOTA数据集上用[20]引入的5个去噪模块进行了实验。我们使用我们之前的工作R³Det [18]， DOTA上最先进的方法之一，作为Baseline。从Table1可以看出，除了均值滤波之外，大多数方法都是可行的。其中，高斯分布的非局部最有效（比高斯分布高1.95%）。
实例级去噪效果。设计InLD的目的是使不同类别的特征在通道维数上解耦，而目标和非目标的特征在空间维数上分别增强和减弱。我们设计了一些验证测试，得到了如 Table2 所示的结果。我们首先探讨了二值语义分割对非目标噪声的弱化作用，检测mAP从65.73％增加到68.12％。多类别语义分割的结果进一步证明，目标之间确实存在干扰，检测mAP的增加1.31％（达到69.43％）反映了这一点。通过以上两个实验，我们可以初步推测非目标区域的干扰是影响探测器性能的主要原因。令人惊讶的是，将客观度的预测得分(参见Eq. 6中的 $P (o b j e c t)$ )与其他因素相结合可以进一步提高性能，加快训练速度，最终准确率达到69.81%。

Table 6的实验表明，InLD大大提高了R³Det对BR、SV、LV、SH、SP、HC等小对象的性能，分别提高了3.94%、0.84%、4.32%、8.48%、10.15%和9.41%。虽然精度大大提高，但模型的检测速度仅降低了1fps (13fps)。除了DOTA数据集，我们还使用了更多的数据集来验证其通用性，如DIOR、ICDAR、COCO、S2TLD等。
根据Table5，InLD在四个数据集中分别获得了1.44％，1.55％，1.4％和0.86％的提升。
Fig.10显示了使用InLD之前和之后的可视化结果。为了研究InLD带来的性能提升是由于额外的计算(扩张卷积)还是有监督学习(supervised learning, LInLD)，我们通过控制扩张卷积的数量和监督信号来进行消融实验。
Table 3显示，有监督学习是InLD的主要贡献，而不是更多的卷积层。

特别地，我们对我们新发布的交通检测数据集SJTU小交通灯数据集(S²TLD)进行了详细的研究。与BSTLD相比，S²TLD具有更多的可用类别。此外，S²TLD包含从两个不同的相机拍摄的两个不同分辨率的图像，可以用于更有挑战性的检测任务。Table 4显示了InLD在这两个交通灯数据集上的有效性。
在这里插入图片描述

ImLD与InLD联合使用的效果。一个自然的想法是，我们是否可以结合这两个去噪结构，如 Table2 所示。为了进行更全面的研究，我们对不同的数据集和不同的检测任务进行了详细的消融实验。

实验结果如 Table5 所示，我们倾向于得到以下结论：
1)大部分数据集比较干净，因此ImLD在所有数据集中并没有得到显著的增长。
2)采用InLD的检测器性能改善显著且稳定，优于ImLD。
3)ImLD和InLD组合的增益不大，主要是因为它们的影响有些重叠：InLD削弱了非对象区域的特征响应，同时减弱了图像噪声干扰。
因此，ImLD是一个可选模块，具体取决于数据集和计算环境。除非另有说明，否则我们不会在后续实验中使用ImLD。

IoU-Smooth L1 Loss的影响。IoU-Smooth L1 loss 消除了角度的边界影响，使模型更容易回归到对象坐标。由 Table7 可知，新的损失使三个检测器的准确率分别提高到69.83%、68.65%和76.20%。
数据扩充和主干网的效果。使用ResNet101作为主干网并进行数据增强(随机水平翻转、垂直翻转、随机灰度化和随机旋转)，我们观察到一个合理的改进如 Table6 所示(69.81%→72.98%)。以ResNet152为主干网，将模型的最终性能由72.98%提高到74.41%。由于数据集中类别的极度不平衡，这为数据扩充提供了巨大的优势，但我们发现，在这些波动设置下，这并不影响InLD的功能，（从72.81%到74.41%）。所有的实验都是在DOTA上的OBB任务上进行的，最后基于R³Det的模型也被命名为R³Det++。

4.3 Comparison with the State-of-the-Art Methods

我们将我们提出的InLD与DOTA[10]和DIOR[11]两个数据集上的最先进算法进行了比较。我们的模型比其他所有的模型都好。

DOTA上的结果。如 Table8 所示，我们将结果与DOTA的最新结果进行了比较。这里报告的DOTA结果是通过将我们的预测提交给官方的DOTA评估服务器获得的。

在OBB任务中，我们将提出的InLD模块添加到单阶段检测方法（R³Det ++）和两阶段检测方法（FPN-InLD）中。我们的方法达到了最佳性能，分别为76.56％和76.81％。为了进行公平的比较，我们不使用DOTA排行榜方法中经常使用的各种技巧，超大主干网络和模型集成的叠加。
****，我们还进行了相同的实验，并获得了竞争检测mAP，分别为74.37％和76.24％。如果使用多尺度训练和测试，模型性能可以进一步提高到79.35％。值得注意的是，FADet [27]，SCRDet [30]和CAD-Det [25]使用简单注意机制如Eq. 1所述，但我们的性能远胜于所有。Fig.11示出了一些空中子图像，Fig.12示出了大场景的空中图像。

DIOR和UCAS-AOD的结果。 DIOR是一个新的大规模航空影像数据集，并且具有比DOTA更多的类别。除了官方baseline，我们还在 Table9 中给出了最终的检测结果。应该注意的是，我们复制的baseline高于官方的baseline。最后，我们在基于FPN和RetinaNet的方法上获得了77.80％和75.11％的mAP。Table10说明了在UCAS-AOD数据集上的性能比较。如我们所见，我们的方法在OBB任务中达到96.95％，是所有现有已发布方法中最好的。