翻译与笔记2： Progressive Context-Dependent Inference for Object Detection in Remote Sensing Imagery（精读）

倚肆

已于 2024-05-17 17:00:52 修改

阅读量24

点赞数

分类专栏：目标检测文章标签：笔记目标检测计算机视觉

于 2024-05-16 19:43:24 首次发布

目标检测专栏收录该内容

3 篇文章 0 订阅

订阅专栏

文献：L. Binhui, C. Chunyan, C. Zhen, and Y. Jian, "Progressive Context-Dependent Inference for Object Detection in Remote Sensing Imagery," in IEEE Transactions on Image Processing, vol. 32, pp. 580-590, Dec. 2022.

一、翻译

摘要

本文发现遥感影像的众多对象在几何特征（如物体尺寸/角度/布局）上具有极强的一致性，因此提出了一种新型的渐进式上下文相关推理（PCI）方法，以充分利用大范围的上下文线索，更好地定位遥感影像中的对象。特别是，为了表示候选对象及其几何分布，我们将所有这些对象构建到候选对象图中，然后通过扩散上下文对象信息来执行推理学习。为了使推理更加可信，我们逐步积累了这些关于标签预测和位置回归过程的历史学习经验，进入网络演进的下一阶段，其中候选对象图的拓扑结构和属性将动态更新。图更新和地面物体检测被共同封装为一个闭环学习过程。因此，将多目标定位问题转化为动态图的渐进式构造。在三个公共数据集上的大量实验表明，我们提出的方法优于其他最先进的遥感图像地面物体检测方法。

索引项 — 对象检测、逐进式上下文相关推理、遥感影像。

I. 介绍

遥感影像中的物体检测是指对感兴趣物体的位置进行定位，是遥感技术快速发展的智能感知的重要组成部分。它支持军事和民用领域的各种更高层次的应用，包括环境监测、地质灾害检测、地理信息系统分析、城市规划和智能交通。遥感影像中的移动物体总是具有复杂的背景、密集排列和任意方向（如飞机、轮船、车辆等）的特征，与自然影像中的物体有本质区别，由于鸟瞰角度采集图像时，飞行器姿态和高度变化很大。因此，遥感影像中的目标检测仍然面临上述复杂因素带来的更大挑战。

在过去几年中，基于深度学习的目标检测方法促进了一般图像的重大进展。具体而言，两阶段对象检测会生成感兴趣区域/候选对象框，然后将它们馈送到管道中，用于对象识别和边界框回归。代表性方法包括R-CNN [2]、Fast R-CNN [3]、Faster R-CNN [4]、Mask R-CNN [5]和基于FPN的检测[6]、[7]。此外，单级检测器（例如，YOLO [8]、[9]、[10] 和 SSD [11]）将目标检测问题视为简单的回归问题。尽管这些探测器在一般图像上效果很好，但它们没有考虑到航空图像的一些特殊特征，例如物体的小比例和密集排列，各种方向和复杂的背景。为了解决上述问题，最近一些研究人员试图将这些通用探测器扩展到遥感图像[12]、[13]、[14]、[15]、[16]。例如，旋转区域建议网络工程（RRPN）[12]、[14]、[17]、[18]、[19]可以生成从倾斜锚点回归的旋转区域建议，然后处理空中物体检测问题。为了减轻计算负担，提出了旋转区域CNN（R2CNN）[20]，从水平区域建议[21]，[22]回归任意定向边界框。尽管这些专业检测方法在遥感影像方面取得了长足的进步，但它们并没有特别注意遥感物体的那些隐含的几何先验。

为了揭示潜在的内部先验，我们对公共DOTA数据集[1]上检测到的物体的几何属性进行了统计分析。我们在对象尺度和对象方向的度量上考虑对象的一致性。给定一个对象作为参考目标，我们使用公共标签计算比例和角度与其相邻对象的差异。根据从参考对象到相邻对象的距离，我们绘制了图1中的所有散射点，其中距离由参考对象的大小归一化。从这张图中，我们可以明显地观察到，大多数上下文对象在方向和尺度上都是一致的。例如，从视觉上看，停车场中的车辆具有相似的比例/大小和方向。因此，在感知远程影像时，对象之间存在一些很强的上下文依赖先验，应该挖掘并利用这些先验进行目标检测。

图 1.DOTA数据集上上下文对象相关性的统计结果[1]。对象之间的差异（相对于 y 轴）是根据对象方向（左）和大小（右）计算的。x 轴表示两个对象之间的距离，该距离由参考对象大小归一化。我们可以观察到，大多数对象在上下文区域中具有几乎一致的几何特征。

受上述观察结果的启发，我们提出了一种渐进式上下文相关推理（PCI）方法来提高遥感影像中目标检测的性能。为了描述航拍图像中（候选）对象的上下文相关线索，我们将它们建模到一个图形框架中，其中边缘表示对象之间的连接，而节点表示候选对象。在检查一个候选对象时，我们希望从其周围的候选对象中借用一些线索来修改该候选对象的状态（包括标签、位置等）。为了更有效地将上下文信息传播到一个候选对象（作为参考）中，我们对在参考对象周围的指定局部区域中定义的图形执行推理过程。为了进一步做出更自信的推理，我们通过显式积累先前的响应，将标签估计和位置回归过程的历史学习经验继承到下一个网络演化中。对象本地化和图形构建/更新被调制以形成一个闭环的端到端过程。最后，将多目标定位问题转化为动态图的渐进式构造。在两个公共遥感图像数据集上的大量实验证明了我们提出的方法优于其他最先进的方法

总而言之，我们的主要贡献有三个方面：i）受我们对航空图像的观察的启发，我们提出了一种渐进式上下文相关推理方法，以利用上下文线索来增强对象检测。ii）我们将多对象本地化简化为动态图学习问题，其中对象本地化和图更新是闭环的，以便进行渐进式改进。iii）实验表明我们提出的PCI方法的有效性，并报告了最新的结果

II. 相关工作

A. 一般图像中的检测

近年来，卷积神经网络（CNN）依靠强大的特征学习能力，在分类[23]、[24]、[25]、分割[5]、[26]、[27]、跟踪[28]以及检测[4]、[6]、[7]、[8]、[11]等多种视觉任务中取得了巨大成功。在检测任务方面，Girshick等人利用基于CNN的两阶段网络结构R-CNN[2]获得了令人满意的检测结果。继R-CNN之后，又提出了几种基于区域的探测器，如Fast R-CNN[3]、Faster RCNN[4]和R-FCN[6]，以进一步提高探测器的效率和性能。最近，Lin等人提出了特征金字塔网络（FPN）[7]来融合来自多个阶段的特征，以改善多尺度物体的检测结果。随后提出了RetinaNet [29]来处理训练期间样本的类不平衡问题。Cai等人采用了级联的概念，并引入了多级检测器（名为Cascade R-CNN [30]），以产生更精确的边界盒。与这些两阶段检测器不同，其他基于回归的方法（例如，YOLO [8]、[9]、[10]、SSD [11]）将检测作为回归问题，并直接通过单个CNN结构预测边界框的对象。受任意定向文本检测模型RRPN[17]的启发，许多方法[14]、[19]、[31]通过倾斜锚点采用了旋转区域建议，以更好地匹配RS图像的旋转地面实况（GT）边界框。尽管这些倾斜锚点可以很好地覆盖旋转对象，但由于每个像素可能会生成数十个甚至数百个建议，因此计算负担会大大增加。另一种替代解决方案是从粗略的水平区域建议中回归旋转边界框的坐标，如 $R^{2}$ CNN[20]，它不仅可以利用水平区域的上下文信息，还可以在一定程度上减少模型参数。

B. 航空图像的检测

一般来说，航拍图像中物体的比例尺是相当不一致的，例如，车辆和游乐场之间的比例差异可能有几十倍甚至几百倍，因此我们不能直接用单级特征表示来做检测任务。一种常见的做法是利用FPN [7]来提取多尺度卷积特征。例如，Azimi等人提出了一种联合图像级联和特征金字塔网络（ICN）[31]，以融合来自多图像的多尺度语义特征。Yang等人逐层扩展了密集连接的FPN，构建了密集特征金字塔网络（R-DFPN）[14]。尽管它们在一定程度上改善了结果的性能，但由于遥感图像的复杂背景，金字塔形特征可能会受到噪声的影响。最近，许多工作已经证明目标检测和分割是两个相关的任务，这两个任务的联合训练对这两个子任务都是有效的。例如，掩码 R-CNN [5] 通过添加用于预测对象掩码的并行分割分支来扩展 Faster R-CNN [4]。MaskLab [32] 通过结合语义和方向输出来预测实例掩码。MS-CNN[33]从多尺度角度优化了Mask R-CNN[5]，利用特征分割机理和融合增强策略，丰富了各卷积层获得的感受野。在小样本学习方面，FOD[34]学习了基类元知识，并将其推广到样本很少的新类中。SOSF[35]设计了具有合适ROI尺度的高空间分辨率遥感图像的CNN框架，并获得了良好的通用性和鲁棒性。HTC [27] 利用掩码信息流和空间上下文功能来改进检测和分割预测。上述方法均利用对象边界框和掩码注解来提高网络的学习能力。在大多数情况下，遥感图像中没有物体的精确掩模注释。幸运的是，在 RS 图像中，由于鸟瞰图和旋转边界框的特殊特性，物体之间没有或几乎没有遮挡。因此，箱体分割也可用于辅助遥感影像的检测任务。

图 2.我们的PCI网络架构概述。以航拍影像为输入，利用特征金字塔网络（FPN）提取多尺度表示，利用区域建议网络（RPN）生成区域建议，然后使用感兴趣区域（ROI）模块提取相应的特征。我们构建了一系列局部范围图，其中每个图描述了局部区域/感受对象之间上下文相关关系。我们通过图扩散操作自适应地将上下文对象的知识传播到参考对象中。此外，可以将对象的扩散特征输入回归网络，以估计候选对象的标签和位置偏移。这些估计结果将逐步用于更新候选对象图，其中 OBB 和 HBB 代表定向边界框和水平边界框。BU、EU、CU 和 FU 分别代表边界框更新、边缘更新、类更新和功能更新。

C. 推理中的客体关系

视觉推理试图将物体或场景之间的不同信息或交互结合起来，以更好地执行各种感知任务，包括图像分类[36]、物体检测[37]和视觉关系检测[38]。例如，Akata等[39]通过考虑属性和类之间的相关性，将基于属性的图像分类作为标签嵌入问题来解决。在[40]中，训练了一个深度视觉语义嵌入模型，以使用标记的图像数据以及从未注释文本中收集的语义信息来识别视觉对象。毛等[41]通过使用一些带有句子描述的图像，解决了学习新视觉概念的任务，特别是与其他概念的交互。为了整合上下文信息，大多数早期作品在对象分类/检测过程中纳入了语义、空间和位置的关系[42]，[43]。最近，人们提出了深度关系网络，通过利用对象及其关系之间的统计依赖关系来执行视觉关系检测[38]。在识别系统中，进一步提出了迭代视觉推理方法，利用区域和类之间的空间和语义关系，在图上传递信息[37]。与上述方法不同，我们提出了一种渐进式上下文依赖推理方法，以利用目标之间的大范围上下文线索（例如，一致的大小/角度/布局）进行遥感影像中的对象检测任务。

III. 建议的PCI方法

A. 概述

本文重点介绍了求解遥感影像中目标检测问题的上下文相关推理学习方法。我们的动机主要来自于我们对航拍图像中存在大量语境依赖性信息以及对象之间的相互关系的观察，例如语义范畴、空间布局、对象方向和尺度的一致性。此外，目标检测通常受益于迭代细化定位结果的级联学习过程。因此，我们的目标是挖掘和利用大范围的上下文线索来逐步推断对象的位置和分类。我们提出的上下文相关推理方法的整个网络如图 2 所示。

以航拍图像为输入，我们使用基本特征金字塔网络（FPN）[7]来提取多尺度特征表示，该特征可以充分利用低级细节和高级语义特征，具有经典的自上而下和自下而上的网络结构。我们利用区域建议网络（RPN）生成区域建议（或命名的候选对象），然后使用感兴趣区域（ROI）模块提取相应的特征。为了表征这些建议及其几何分布，我们构建了一系列局部范围图来模拟遥感影像中这些隐含的上下文信息和对象之间的相互关系，其中每个图描述了局部区域/感受野中候选对象之间的上下文依赖关系。为了借用上下文信息，我们通过图扩散操作自适应地将上下文对象的这些知识（如特征属性或其他因素）传播到参考对象中。上下文信息的集成可能有助于感知当前的候选对象。此外，可以将对象的扩散特征输入回归网络，以估计候选对象的标签和位置偏移。这些估计结果接下来将用于更新候选对象图。图形更新包括两个折叠：i）由新位置/大小以及对象特征引起的节点属性，ii）来自语义标签和对象位置的边缘连接。这意味着候选对象图的边缘连接和特征属性将动态更新。此外，为了进一步使推理更加可信，我们将这些在标签识别和位置回归过程中学到的经验积累到下一个网络演进中。上述特征提取、动态图构建和推理学习被封装成一个统一的网络框架，并以端到端的方式进行联合优化。

B. 对象图构造

对于遥感影像中的经典目标检测任务，现有方法一般都是单独处理这些提取的方案，这不利于考虑不同对象之间的潜在上下文依赖关系，从而导致检测结果不一致。特别是，与这些一般图像相比，遥感图像具有一些特定的属性，如小尺度物体、密集排列和复杂背景。因此，我们将这些候选对象及其相关性表示为局部范围图，这在对航空图像中两个相邻对象之间的这种非欧几里得拓扑关系进行建模具有天然优势。具体来说，我们可以构建几个局部范围的对象图来表示这些候选对象（即 RPN 生成的提案）及其几何分布。每个局部范围的对象图都可以用四元组 $G = \left ( \nu, \varepsilon , X, A \right )$ 表示，其中 $\nu, \varepsilon$ 分别表示节点和边的集合，X 是节点的属性/特征矩阵，A 是 w.r.t 边的邻接矩阵。节点集 $\nu = \left \{ v_{1}, v_{2}, ..., v_{n} \right \}\left ( i.e., \left | \nu \right | = n \right )$ 由本地区域中所有生成的提案组成，其中每个提案都可以被视为一个节点。此外，可以通过深度卷积神经网络在每个节点（w.r.t一个建议）提取属性和特征描述。形式上， $x_{i} = f_{ROI}\left ( x, v_{i} \right ) \in \mathbb{R}^{d}$ ，其中 $f_{ROI}$ 是通过基本 ROI 模块的多尺度特征提取器，d 是描述符的长度（即特征属性的维度）。所有节点的特征向量逐行堆叠，形成特征矩阵 $X = \left [ x_{1}^{T}; x_{2}^{T}; ...; x_{n}^{T} \right ] \in \mathbb{R}^{n\times d}$ 。为了方便陈述，下面我们将使用表示法 $X_{i}$ 表示特征矩阵的第 i 行或节点 $v_{i}$ 的属性。

在局部范围对象图 G 中，边集 $\varepsilon$ 由连接的边组成，其构建取决于空间位置、语义信息、比例大小、特征表示或其中的其他因素。例如，我们可以确定节点 $v_{i}$ 和 $v_{j}$ 之间是否有一条边，如下所示：

其中 i 和 j 表示图节点的索引， $N^{k}\left ( v_{i} \right )$ 表示节点 $v_{i}$ 在欧几里得空间中的前 k 个最近邻，c( $v_{i}$ ) 表示节点 $v_{i}$ 的标签信息。也就是说，如果节点 $v_{j}$ 属于第 i 个节点 $v_{i}$ 的前 k 个最近邻，并且它们具有公共类别，我们设置 $e_{ij}$ = 1，否则 $e_{ij}$ = 0。当然，其他信息可能会被纳入边缘的构造中。所有具有边连接的配对节点都构成边集 $\varepsilon = \left \{ \left ( v_{i, v_{j}} \right ) | e_{ij} = 1, v_{i}, v_{j} \in \nu \right \}$ 。候选对象之间的边连接关系也可以用未加权的相邻矩阵 $A \in \mathbb{R}^{n \times n}$ 表示，其元素 $A_{ij} = e_{ij}$ 。在实践中，我们用有限数量的节点构建这些局部范围的对象图，以便于高效地执行上下文相关的推理，因此超参数 k 默认设置为 6。

C. 对象推理学习

我们的推理学习模块的核心思想是递归地将上下文对象信息扩散到构建的图 G 上，以便有效地挖掘局部区域内的丰富和高阶关系。同时，图卷积在推导图上节点之间的关系方面具有先天优势。因此，我们应用图卷积运算来集中这些来自邻居的上下文线索，可以进一步采用这些线索来推断每个候选提案的语义和空间信息。具体来说，对于H步/层图扩散模块，可以在h层（h = 1,2,..., H）中更新每个节点vi∈V的特征表示，

其中 σ 表示非线性激活函数（例如 ReLU）， $W^{h}$ 是所有节点共享的第 h 层上的可训练参数矩阵， $f_{agg}$ 表示在其相邻节点上定义的聚合函数。运算符 ⊕ 表示矩阵串联。这种扩散过程可以更好地考虑其先前的属性 $X_{i}^{h-1}$ 和这些聚合特征。也就是说，方程2使每个节点的输出元素对上下文信息及其原始信息进行编码，从而增强了其可表示性。经过 H 次上下文扩散迭代后，输出属性可以捕获每个节点邻域内的相关性。

特征模式的聚合过程可以细化存在小尺度对象和类别模糊性的区域/建议的特征属性，然后将这些增强的特征输入到预测模块中以细化检测结果。具体来说，对于每个候选对象 $v_{i}$ ，我们可以使用回归网络 $f_{rgs}$ 来估计位置偏移量，并使用预测网络 $f_{pre}$ 来估计标签信息 $c_{i}$ ，形式，

其中 $\bigtriangleup x_{i}, \bigtriangleup y_{i}, \bigtriangleup w_{i}$ 和 $\bigtriangleup h_{i}$ 表示中心点、宽度和高度的偏移量。 $f_{rgs}$ 和 $f_{pre}$ 可以与这些标准检测器中使用的网络层一起实现[20]。

D. 图的动态更新

基于语义识别和位置回归的经验，我们动态更新候选对象图，以更好地表示遥感影像中对象之间的各种关系。在这里，我们可以将时间剪辑 t 处的动态图更新过程表述为

其中 $G = \left ( \nu_{t}, \varepsilon_{t} , X_{t}, A_{t} \right )$ 和 $G = \left ( \nu_{t-1}, \varepsilon_{t-1} , X_{t-1}, A_{t-1} \right )$ 分别表示第 t 个和（t − 1）个时间片段中的候选对象图，fupdate 是前一个图上的图更新函数。具体来说，我们从以下几个方面对图表进行了更新：
- Node 属性。在预测一个候选对象的中心点偏移和尺度变体之后，我们可以通过添加变体来重新定位边界框，例如， $x_{i}^{t+1} = _{i}^{t} + \bigtriangleup x_{i}$ 。因此，我们可以得到候选对象的新边界框，表示为 $\left ( x_{i}^{t+1}, y_{i}^{t+1}, w_{i}^{t+1}, h_{i}^{t+1} \right )$ 。因此，我们需要通过基于新的本地化边界框重新生成 ROI 特征来更新节点属性。
- 节点净化。对于这些误报建议，我们需要将它们从图中剔除，以便随后的推理阶段可以更准确。为此，我们根据两个规则删除这些节点：i）语义标签的估计分数低于指定的阈值（例如，0.1），以及ii）一个提案与其他周围提案之间的空间重叠比率高于阈值（例如，0.6）。
- 边缘连接。在考虑位置/尺度、属性的更新以及可以淡化边界框的净化时，我们需要根据空间/语义信息更新边缘连接，其中可能会添加、删除、加强或削弱一些边缘连接。

更新建议图后，我们可以继续执行对象推理学习，如第 III-C 节所述。这样，标签预测和本地化回归前几个阶段的历史经验将随着这个渐进式学习框架中的时间剪辑而积累。

E. PCI网络优化

所提出的PCI检测网络可以同时进行对象识别，以端到端的方式定位水平和定向边界框。在这里，探测器的多损耗目标函数可以定义如下：

这里，i 是锚点的索引， $p_{i}$ 表示第 i 个锚点是对象的预测概率。如果锚点为负则为真值类别 $p_{i}^{*}$ 为 0，如果锚点为正，则为 1。 $\phi _{i}^{*}$ 和 $h _{i}^{*}$ 是与正锚相关的面向地面的定向边界框（OBB）和水平边界框（HBB）的坐标，而 $\phi _{i}$ 和 $h _{i}$ 分别表示估计的 OBB 和 HBB 的参数化坐标向量。式（6）中的分类损失项 $\xi _{cls}$ 是两类（对象与非对象）的对数损失函数。对于OBB和HBB任务的位置回归目标函数，我们采用 $\xi_{reg_{obb}}\left ( \phi _{i}, \phi _{i}^{*} \right ) = R\left ( \phi _{i} - \phi _{i}^{*} \right )$ 和 $\xi_{reg_{hbb}}\left ( h _{i}, h _{i}^{*} \right ) = R\left ( h _{i} - h _{i}^{*} \right )$ ，其中R是[3]中定义的平滑L1损失函数。术语 $p_{i}^{*}\xi_{reg_{hbb}}\left ( h _{i}, h _{i}^{*} \right )$ 和 $p_{i}^{*}\xi_{reg_{obb}}\left ( \phi_{i}, \phi _{i}^{*} \right )$ 表示 HBB 和 OBB 回归目标函数仅针对这些正锚点 $\left ( p_{i}^{*} = 1\right )$ 被激活，否则将被禁用 $\left ( p_{i}^{*} = 0\right )$ 。

IV. 实验

在本节中，我们首先介绍了我们评估所提出的目标检测框架的数据集，然后描述了我们所提出的方法的实现细节，最后展示了所取得的性能以及一些分析。

表一

DOTA测试集OBB任务基线与PCI方法的定量比较

A. 实验装置

1）数据集：为了评估我们提出的PCI检测框架的性能，我们对三个公共航空数据集进行了全面的实验，包括DOTA [1]、NWPU VHR-10 [58]和我们构建的RGB红外数据集。DOTA和RGB-Infrared数据集同时包含OBB和HBB任务，而NWPU VHR-10数据集仅包含HBB任务。我们使用平均精度（mAP）作为主要指标，如 [18]、[59] 和 [47]。
DOTA [1] 是航拍图像中最大的目标检测数据集。它包含 2806 张航空图像，像素范围从 800 × 800 到 4000 × 4000 像素不等，包括 15 个类别的对象，有 188,282 个实例。这些对象具有任意的比例、方向和形状，每个对象都注释在附加的四边形上。类别如下：飞机（PL）、棒球钻石（BD）、桥梁（BR）、地面田径场（GTF）、小型车辆（SV）、大型车辆（LV）、船舶（SH）、网球场（TC）、篮球场（BC）、储罐（ST）、足球场（SBF）、环形交叉路口（RA）、港口（HA）、游泳池（SP）和直升机（HC）。它分为训练（1/2）、验证（1/6）和测试（1/3）集。NWPU VHR-10 [58] 是一个公开可用的地理空间对象检测数据集，有 10 个类别。所有物体的真值位置仅用 HBB 表示。它总共包含 800 张（650 张正面和 150 张负面）甚高分辨率（VHR）遥感图像，这些图像已从 Google Earth 和 Vaihingen 数据集中裁剪出来，然后由专家手动注释。为了便于与基线方法[58]、[60]、[61]进行公平比较，我们将阳性日期集分为60%用于训练，20%用于验证，20%用于测试。我们构建的 RGB 红外数据集包含 12,513 张大小为 640× 512 像素的 RGB 图像，包括属于三类（即汽车、公共汽车和货车）的对象。与DOTA数据集类似，这些对象具有任意的比例、方向和形状，每个对象都标注在附加的四边形上。我们随机选择 9385 张图像（3/4）进行训练，随机选择 3128 张图像（1/4）进行测试。RGB红外数据集将在稍后发布。

2）实现细节：对于DOTA数据集，我们使用官方开发套件将图像拆分为1024×1024的子图像，重叠512像素。我们还采用多尺度进行训练和测试，我们首先将所有图像的大小调整为 1.5× 和 0.5× 倍，然后将这些拆分的子图像作为最终的训练和测试集。对于NWPU VHR-10数据集，我们将长边的图像大小调整为1024像素，而短边为832像素。在训练期间，我们使用经过训练的 ResNet-50 [24] 来初始化我们的主干。对于 DOTA 和 RGB-Infrared 数据集，我们在 2 个学习率为 0.005 的 TITAN RTX GPU 上训练了 12 个批量大小为 2 的模型，并在 8 个和 11 个 epoch 后将学习率降低了 10 倍。权重衰减设置为 0.0001，动量为 0.9。然后，最接近的值k为6，扩散过程的迭代值H为2，动态图更新过程中的迭代次数T为4。具体来说，我们在表VI中描述了每个超参数的具体含义。对于 NWPU VHR-10 数据集，我们在训练集中使用了 390 张图像;我们还评估了我们的方法仅对 HBB 任务的有效性。我们在 2 个 GPU 上训练它总共 48 个 epoch，批处理大小为 2，学习率为 0.005，在 32 和 44 个 epoch 后降低 10 倍。在整个训练过程中，我们还实施了数据增强，包括随机翻转和旋转。

B. 与最先进方法的比较

表二

DOTA测试集HBB任务的基线和PCI方法之间的定量比较

表三

NWPU VHR-10 数据集上 HBB 任务的性能评估

1）DOTA数据集[1]：表I和表II分别显示了我们的PCI性能，以及与几种最先进方法在OBB和HBB任务上的比较。对于OBB任务，我们报告了单尺度和多尺度的结果。如表I所示，除ReDet [50]外，我们的PCI明显优于这些方法，在mAP评分方面，比 $R^{2}$ CNN [18]提高了3.15%，比CenterMap [46]提高了2.57%，比SCRDet [47]提高了1.7%，比 $R^{3}$ Det [48]提高了0.57%，比 $S^{2}$ A-Net [49]提高了0.19%。与SCRDet[47]相比，我们的OBB任务方法在大多数类别中也取得了非常大的增益：例如，棒球钻石（BD）为86.24%对80.65%，小矢量（SV）为69.43%与68.36%，地面田径场（GTF）为77.46%与68.36%，船舶（SH）为85.71%对72.41%，港口（HA）为74.89%对66.25%。即使与ReDet [50]相比，我们的PCI（采用R101-FPN）在大多数类别中的表现也优于ReDet [50]：例如，飞机（PL）为89.91%对88.79%，棒球钻石（BD）为86.24%对82.64%，地面田径场（GTF）为77.46%与74.00%，储罐（ST）为85.83%与85.75%，足球场（SBF）为65.03%对61.76%。 62.66% vs 60.39% 对于环形交叉路口（RA）和 71.01% vs 68.07% 对于游泳池（SP）。此外，我们的PCI（带有ReR50-ReFPN）在单尺度和多尺度训练模式下都能实现最佳性能。同时，在DOTA数据集上，HBB任务的mAP为79.34%，明显优于FPN[7]、ICN[31]和SCRDet [47]，分别提高了3.99%、6.84%和7.34%。此外，对于OBB和HBB任务，我们在棒球钻石（BD）、足球场（SBF）和港口（HA）等小而密集的物体上都取得了更好的性能，这证明了我们的方法在关联上下文信息方面的有效性。这表明我们的PCI在检测这些密集且方向不规则的物体方面表现非常出色。

2）NWPU VHR-10 [58]和RGB红外数据集：我们首先报告了NWPU VHR-10上HBB任务的基线和PCI方法之间的比较结果[58]。从表III可以看出，我们获得了90.31%的mAP，并在几个物体类别中实现了最佳性能：例如，飞机（PL）为99.60%，船舶（SH）为92.30%，桥梁（BR）为87.23%，车辆（VE）为90.10%。与之前的方法[60]、[61]、[62]、[63]、[64]、[65]的比较表明，我们提出的PCI也大大优于它们，在mAP评分方面，比多尺度CNN[65]提高了0.71%，比RDAS512[64]提高了0.81%，比可变形更快的R-CNN[61]提高了5.91%。这表明，即使在遥感影像中的单个HBB任务上，我们的PCI方法也表现良好。此外，我们还报告了我们的PCI和现有方法[7]、[18]、[47]在RGB-Infrared数据集上的检测结果，只有三个类别。如表IV所示，在OBB和HBB任务的mAP评分方面，我们分别实现了80.36%和82.35%的性能。对于HBB任务，我们明显优于SCRDet方法[47]，例如，公共汽车类别为78.16%对77.15%，货车类别为78.69%对77.06%。上述实验结果表明，所提出的PCI方法通过提高网络的预测能力，能够更好地预测目标类别信息和相应的位置。

C. 消融分析

我们对DOTA验证集进行算法分析。这里我们选择基于FPN [7]的Faster R-CNN作为扩展的旋转回归任务的基线。

表四

RGB-INFRARED数据集的性能评估

表五

DOTA验证集的计算要求

表六

超参数的含义

表七

DOTA验证集上渐进式学习过程不同阶段的性能比较

1）过程性学习过程：正如第III-D节所讨论的，可以积累前几个阶段的历史经验，以促进这个渐进式推理学习过程的最终预测。表VII报告了DOTA验证集上预测的HBB和OBB检测结果。与基线相比，第一阶段 S1 的性能可以提高 1.03%（75.42% 对 74.39%），对于 HBB 任务可以提高 1.39%（77.31% 对 75.92%）。从第一阶段到结束阶段，OBB任务的检测结果可以提高1.22%（76.64%对75.42%），HBB任务的检测结果可以提高1.11%（78.42%对77.31%）。上述实验结果表明，通过渐进式推理学习过程，我们的检测结果确实可以得到改善。

2）不同k邻的分析：为了分析构建局部范围图时不同k邻的效应，图3（a）显示了不同k值（k = 3,4,5,6,7,8）的HBB和OBB检测结果。两个任务的性能可以从 k = 4 增加到 k = 6（即 OBB 任务为 75.77% 对 76.64%，HBB 任务为 78.38% 对 78.42%），并在 k = 6 时达到最佳结果。当k邻从k = 6连续增加到k = 8时，OBB任务的检测结果分别从76.64%降低到75.53%，HBB任务的检测结果分别从78.42%降低到77.02%。原因可能是，随着相邻提案数量的增加，在方向和尺度上与中心对象不相似的对象也会加入扩散过程。它致力于在构建局部范围对象图时选择 k 邻居将影响最终检测结果。

图 3.与DOTA验证集上各种参数设置的结果比较。

3）不同氢扩散层的分析：图3（b）显示了不同扩散层数（即参数H = 1,2,3,4）的性能比较。一个扩散层在HBB任务上的性能为77.56%，在OBB任务上的性能为75.89%。当进行两次图扩散时，我们可以获得最佳的检测结果，在HBB任务上可以提高0.86%，在OBB任务上可以提高0.75%。当我们继续增加扩散层的数量时，性能会降低。它清楚地表明，通过将来自适当数量的相邻节点的这些上下文线索集中聚合，可以提高 dif 融合推理学习的能力。

4）预测结果的统计和可视化分析：如图4所示，我们最终显示了PCI和基线方法在物体角度/位置、尺度、中心点位置和交并（IoU）方面的统计结果。物体的距离是指物体之间的相对距离相同，而角度、尺度、中心点位置和IoU的差异可以在预测的OBB结果和相应的地面实况之间计算出来。与基线方法相比，所提方法在角度、尺度和中心点位置方面差异较小，IoU更高。这说明所提PCI方法可以更好地解决遥感影像中的目标检测任务。此外，检测结果的定性比较如图5所示。如图5所示，最左边的两列主要是类别误差的比较，第三列主要是漏检误差的比较，最右边的两列是位置偏差的比较，这表明我们的PCI可以在局部区域的语义分类和空间布局上实现更一致的检测结果，如绿色边界框所示。此外，如图 6 所示，我们的 PCI 在某些类别中的错误分类比带有红框的基线方法（例如飞机、小型车辆、大型车辆、网球场、篮球场、直升机）更少。此外，我们的PCI在某些类别（例如棒球钻石、小型车辆、大型车辆、船舶、足球场、港口、直升机）中遗漏的物体较少。最后，如图4所示，我们的PCI在角度、尺度、中心点位置和IoU等空间位置方面可以获得较小的差异。这表明我们的PCI可以结合周围物体的特征信息来优化当前物体的特征，从而提高最终的检测性能。

图 4.我们的PCI与DOTA验证集的基线方法之间的统计比较。

图 5.在DOTA数据集上使用我们的PCI和基线方法可视化OBB任务检测结果。从上到下：基本事实、基线方法的结果、我们的 PCI 结果以及绿色边界框中的内容比较（左边是基线，右边是我们的 PCI）。

图 6.基线方法的归一化混淆矩阵与DOTA数据集上的PCI的比较。其中，绿色方框代表某一类别的漏检程度，红色方框代表某一类别的误分类程度。

5）计算复杂度：我们最终提供了PCI方法和基线网络之间的计算复杂度分析，如表V所示，对于基线网络，我们通过额外的旋转分支扩展了基于FPN的Faster R-CNN [4]。作为比较，我们还训练了基于 FPN [7] 的 Faster R-CNN [4]，该数据集 [66] 的图像大小与我们的方法中使用的图像大小相同（1024 × 1024）。在表 V 中，我们给出了 TITAN RTX 单个 GPU 的内存要求、训练和测试速度。我们提出的PCI比基线网络花费更多的内存和时间，例如，内存消耗为11.48 GB，而测试过程中为3.7 FPS，而3.1 FPS。额外的时间和内存主要来自对象推理学习和图形的动态更新，但它们在整个过程中只占很小的比例。我们提出的方法大大优于手稿中报告的DOTA验证集基线网络。因此，我们的PCI方法在实践中也很有效。

V. 结语

本文提出了一种新的框架，旨在解决遥感影像中的目标检测问题，该框架可以在统一网络中更好地利用和传播上下文语义信息。特别是，为了表示候选对象及其几何分布，我们将所有这些对象构建到候选对象图中，然后通过扩散上下文对象信息来执行推理学习。此外，为了进一步使推理更加可信，我们逐步动态更新候选对象图。最后，我们在端到端框架中生成类别信息以及相应的 HBB 和 OBB。未来，我们将进一步扩展我们的PCI架构，以解决视觉理解任务，特别是在航拍场景中。

参考文献

二、笔记

1. （未完待续）

倚肆

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
翻译与笔记2： Progressive Context-Dependent Inference for Object Detection in Remote Sensing Imagery（精读）

本文发现遥感影像的众多对象在几何特征（如物体尺寸/角度/布局）上具有极强的一致性，因此提出了一种新型的渐进式上下文相关推理（PCI）方法，以充分利用大范围的上下文线索，更好地定位遥感影像中的对象。特别是，为了表示候选对象及其几何分布，我们将所有这些对象构建到候选对象图中，然后通过扩散上下文对象信息来执行推理学习。为了使推理更加可信，我们逐步积累了这些关于标签预测和位置回归过程的历史学习经验，进入网络演进的下一阶段，其中候选对象图的拓扑结构和属性将动态更新。图更新和地面物体检测被共同封装为一个闭环学习过程。
复制链接

扫一扫