POINTOBB-V2：更简单，更快速，更强大的单点监督定向目标检测

ronghuaiyang

于 2024-10-15 12:01:00 发布

阅读量695

点赞数

文章标签：目标检测目标跟踪人工智能计算机视觉机器学习

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg5ODAzMTkyMg==&mid=2247498056&idx=1&sn=f6eba1cc8fe6b45a76044e40921f3a65&chksm=c1fd56346c78622a33f9c20bebb7a77386e8765372a958b9485e54c28bfeac8fe72f1fa8aea3&scene=126&sessionid=0

版权

导读

广泛的对比实验表明，我们的方法比先前的最先进方法PointOBB在DOTAv1.0/v1.5/v2.0数据集上实现了15.58倍的训练速度提升和11.60%/25.15%/21.19%的精度提升。

摘要

单点监督定向目标检测已经引起了关注并在社区内取得了初步进展。与依赖一次性样本或强大的预训练模型（如SAM）的方法不同，PointOBB因其无先验特征而展现出潜力。在本文中，我们提出了PointOBBv2，这是一种更简单、更快、更强的方法，可以从点生成伪旋转框而不依赖任何其他先验知识。具体来说，我们首先通过非均匀正负采样训练网络生成一个类别概率图（CPM）。我们展示了CPM能够学习到近似的目标区域及其轮廓。然后，应用主成分分析（PCA）准确估计目标的方向和边界。通过进一步结合分离机制，我们解决了CPM上的重叠导致的混淆，使其能够在高密度场景下运行。广泛的对比实验表明，我们的方法比先前的最先进方法PointOBB在DOTAv1.0/v1.5/v2.0数据集上实现了15.58倍的训练速度提升和11.60%/25.15%/21.19%的精度提升。这显著推进了单点监督定向检测在模块化赛道上的前沿技术。

1 介绍

定向目标检测对于精确标注小且密集排列的目标至关重要，尤其是在遥感影像、零售分析和场景文字检测等场景中，定向边界框（OBBs）提供了精准的标注。然而，标注OBBs是一项劳动密集型且成本高昂的工作。因此，近年来出现了许多弱监督方法，包括水平边界框监督和点监督。水平边界框监督的代表性方法包括H2RBox和H2RBox-v2。此外，点监督仅需为每个目标标注点和类别，显著降低了标注成本。著名的点监督方法包括P2RBox、Point2RBox和PointOBB。

如图1所示，现有的点监督定向目标检测方法大致可以分为三类范式：(a) 基于SAM的方法依赖于强大的SAM模型，虽然在自然图像中效果显著，但在跨域任务如航拍影像中，特别是在小目标和密集排列的场景下表现不佳。此外，基于SAM的方法由于后处理过程而缓慢且内存消耗大；(b) 基于先验的弱监督定向目标检测（WOOD）方法，如Point2RBox，集成了人类先验知识，这减少了泛化能力，因为不同的数据集需要不同的先验知识。此外，端到端的设置限制了灵活性，使得这些方法无法利用更强大的检测器并从中受益；(c) 模块化WOOD方法不依赖手动设计的先验知识，并通过将伪标签生成与检测器解耦合提供了更大的灵活性，使其更适合高效和可扩展的检测任务。

作为先前的最先进方法，PointOBB属于模块化WOOD类别，为点监督检测提供了一种可行的解决方案。然而，它存在几个实际限制：伪标签生成过程非常缓慢，大约比后续的检测器训练时间长7-8倍。此外，其训练需要大量的GPU内存，因为涉及多次视图变换。此外，感兴趣区域（RoI）提案数量的变化可能导致内存不足问题，特别是在密集目标场景中。尽管限制RoI提案的数量可以缓解这一问题，但这会导致性能下降。

鉴于上述问题，我们的动机是设计一种更简单、更快、更强的方法，从而开发出PointOBB-v2。我们的方法旨在保留模块化WOOD范式的优点，同时解决PointOBB的效率问题，特别是速度和内存消耗方面的问题，使其更适合实际应用。PointOBB-v2引入了一种新颖且简洁的管道，摒弃了师生结构，显著提高了伪标签的生成速度和准确性，并改善了内存效率，特别是在小且密集目标的场景中。具体而言，我们从点注释生成类别概率图（CPM），并设计了一种新的样本分配策略，从CPM中捕捉目标轮廓和方向。接下来，我们基于概率分布进行非均匀采样，并使用主成分分析（PCA）确定目标边界和方向。为了应对密集目标分布，我们设计了一种分离机制，以减少连接的CPM在伪标签生成过程中引起的混淆。

实验结果表明，我们的方法在多个数据集上的一致性提高了准确性、速度和内存效率，达到了多项最先进技术的结果。具体来说，在DOTA-v1.0数据集中，我们的方法使用伪标签训练Rotated FCOS时，mAP从30.08%（PointOBB）提高到41.68%，提高了11.60%的mAP。在包含更多小目标的更具挑战性的数据集如DOTA-v1.5和DOTA-v2.0中，我们的方法分别达到了36.39%和27.22%的mAP，相对于PointOBB分别提高了25.15%和21.19%，展示了其处理小且密集排列目标的能力。此外，我们的伪标签生成过程快了15.58倍，时间从22.28小时减少到1.43小时。在DOTA-v1.5和DOTA-v2.0数据集中，PointOBB由于高内存消耗需要限制RoI提案数量，而我们的方法无需此类限制，内存使用量约为8GB。

我们的贡献总结如下：

我们提出了一种新颖且高效的点监督定向目标检测管道，消除了耗时且内存消耗大的师生结构，显著提高了伪标签生成速度并减少了内存使用。
我们的方法不依赖任何额外的深度网络设计，仅依靠类别概率图生成准确的目标轮廓，使用高效的PCA确定目标方向和边界。我们还设计了一种向量约束方法来区分密集场景中的小目标，提高了检测性能。
实验结果表明，我们的方法在多个数据集上始终优于PointOBB，在DOTA-v1.0/v1.5/v2.0数据集中分别提高了11.60%/25.15%/21.19%的mAP，伪标签生成速度提高了15.58倍，内存使用量减少到约8GB，无需限制RoI提案数量。

2 相关工作

除了水平检测，定向目标检测也受到了广泛关注。在本节中，我们首先介绍由旋转框监督的定向检测。然后，讨论点监督定向检测和其他弱监督设置的方法。

2.1 旋转框监督的定向检测

代表性工作包括基于锚点的检测器Rotated RetinaNet，无锚点的检测器Rotated FCOS，以及两阶段解决方案，例如RoI Transformer，Oriented R-CNN，和ReDet。一些研究通过利用对齐特征来增强检测器，例如R3Det和S2A-Net。角度回归可能面临边界不连续的问题，为此开发了多种解决方案，包括调节损失，这些损失可以减轻损失跳跃；角度编码器，这些编码器将角度转换为无边界的编码数据；以及基于高斯的损失，这些损失将旋转边界框转换为高斯分布。基于RepPoint的方法提供了另一种选择，即预测一组样本点来限定目标的空间范围。

2.2 点监督的定向检测

最近，提出了几种点监督的定向检测方法：1) P2RBox，PMHO和PointSAM通过利用SAM的零样本点到掩模能力，提出了点提示的定向目标检测。2) Point2RBox引入了一种基于领域内知识组合的新颖端到端方法。3) PointOBB通过尺度敏感一致性和多实例学习，实现了基于点注释的RBox生成方法，用于定向目标检测。

在这些方法中，P2RBox、PMHO和PointSAM需要预训练在大量标注数据上的SAM模型，而Point2RBox需要每种类别的单样本（即人类先验）。尽管它们在准确性方面表现更好，但不如PointOBB通用。因此，我们选择PointOBB作为基线，开发了一种更简单、更快、更强的方法，即PointOBB-v2。

2.3 其他弱监督设置

与点到RBox相比，其他一些弱监督设置已经得到了更好的研究。这些方法可以通过级联管道应用于我们的点到RBox任务设置，例如点到HBox再到RBox和点到掩模再到RBox。在我们的实验中，也采用了由最新弱监督方法支持的级联管道进行比较。以下是几种代表性工作的介绍。

HBox-to-RBox

开创性的工作H2RBox绕过了分割步骤，直接从HBox注释实现RBox检测。通过不同方向的同一目标的HBox注释，几何约束将目标限制在几个候选角度。结合一个自监督分支消除不期望的结果，建立了HBox到RBox的范式。改进版本H2RBox-v2利用目标的反射对称性估计其角度，进一步提升了HBox到RBox的性能。EIE-Det使用显式等变分支学习旋转一致性，以及隐式等变分支学习位置、纵横比和尺度一致性。一些研究使用额外的标注数据进行训练，这些方法也很有吸引力，但通用性较差。

Point-to-HBox

已开发了几种相关方法，包括：1) P2BNet在标记点周围采样不同大小的框提案，并对其进行分类，以实现点监督的水平目标检测。2) PSOD使用边缘检测器和自适应遮罩填充，实现点监督的显著目标检测。

Point-to-Mask

Point2Mask提出仅使用每个目标的一个点注释进行全景分割。SAM（Segment Anything Model）从输入的点HBox提示生成目标掩模。尽管可以通过找到最小外接矩形从分割掩模获得RBoxes，但这种复杂的管道可能效率较低且性能较差。

3 方法

我们的任务集中在单点监督下的定向目标检测。我们首先利用训练数据集中每个目标的点注释生成伪标签，然后使用这些伪标签训练现有的检测器。如图2所示，模型首先根据点注释生成一个类别概率图（CPM）。具体来说，在训练过程中，我们设计了一种正负样本分配策略，使得生成的CPM勾勒出目标的大致轮廓，较高的概率集中在点周围和目标轴线上。

我们根据CPM生成伪定向边界框。我们在每个目标的点注释周围进行非均匀采样，采样过程由CPM内的概率分布引导。我们将采样过程转化为加权概率方法，这样可以在保持相同预期结果的同时消除随机采样带来的方差。通过对加权网格点应用主成分分析（PCA），我们可以推断出目标的方向。然后，通过将阈值处理后的CPM与推断出的方向相结合，确定目标的边界。此外，为了应对密集目标场景，我们引入了一种区分紧密相邻目标的机制，确保有效的分离和准确的检测。

3.1 类别概率图生成

类别概率图（CPM）表示特征图上每个点的类别概率，取值范围在 [0, 1] 之间。为了生成CPM，我们的模型首先接收一张维度为 (C, H, W) 的图像 I 作为输入，并通过一个带有FPN结构的ResNet-50主干网络进行处理。最终的类别概率图是从FPN的最高分辨率特征图中提取出来的，然后通过投影层进行投影。输出是一个大小为 (Nclass, H0, W0) 的图。形式上，它定义为：

其中，CPM 是类别概率图，Proj(·) 表示投影层，而 f(I)0 是来自 ResNet-50 + FPN 的最高分辨率特征图。

3.2 标签分配

我们方法的一个关键组成部分是设计一种稳健的样本分配策略，用于正样本和负样本。这种策略对于构建准确的条件概率图（CPM）至关重要，CPM 描绘了粗略的目标轮廓，使较高的概率集中在目标中心及其轴线上。为了确保在密集场景下可靠地分离目标，我们的方法通过引入额外的有效区分机制来应对紧密相邻目标的挑战。我们在图 2 的右上角展示了这种标签分配。样本分配过程的具体细节如下：

正样本标签分配。对于正样本，我们选择每个点周围固定半径 b1（在我们的模型中设置为 6）内的所有点。如果一个点位于多个这样的半径内，则将其分配给最近的中心。正样本的条件如下：

负样本标签分配。给定 N 个地面真实目标（GT），对于每个 GTi，我们基于欧几里得距离识别其最近邻目标 GTj。这为我们提供了一个维度为 [N] 的向量 distmin，其中每个元素 disti 表示 GTi 与其最近邻居之间的最小距离。然后，我们在 GTi 周围绘制一个半径为 α × disti 的圆，其中 α（在我们的模型中设置为 1）是一个固定的比例常数。位于所有这些圆之外的点被指定为负样本。负样本的条件表述如下：

除了上述定义的负样本标签外，我们还将目标之间的中间区域设为负样本，以便在密集排列的目标之间使边界更加清晰（在消融表 4 中标记为“Neg./M”）。对于每个 GTi，我们识别出属于同一类别的最近邻目标 GTj。以连接 GTi 和 GTj 的线段中点为中心，绘制一个半径为 b2（在我们的模型中设置为 4）的圆，该圆内的点被指定为负样本。该条件定义如下：

鲁棒性。虽然我们没有基于精确的目标轮廓或方向边界框明确地定义正负样本，这可能导致标签分配过程中出现一些不准确性（即在训练期间错误地分配一小部分正样本或负样本），但这并不会显著影响我们方法学习准确目标轮廓的能力。这些轻微的标签分配不准确性，特别是在密集区域或具有极端长宽比的目标中，并不会影响方法的整体鲁棒性和有效性。如图 3 所示，我们的策略能够学习正确的轮廓，即使是在长宽比大且密集排列的情况下也是如此。

3.3 基于主成分分析的方向和边界估计

在获得条件概率图（CPM）后，我们根据类别概率在每个真实值周围采样点，然后对这些采样点应用主成分分析（PCA），以确定目标的方向。如图 2 底部所示，我们根据对应目标类别的 CPM 中的概率在真实值周围采样点。我们选择一个以真实值为中心的 7 × 7 网格，49 个整数点 z1∼49 的坐标为：

对于每个网格点 zi，我们可以计算 CPM 概率 pi，并根据此概率决定是否采样该点。一旦我们有了采样的点，我们应用主成分分析（PCA）来找到点集的主要方向，这代表了目标的方向。虽然 PCA 在期望上提供了正确的主方向，但由于采样引入的随机性，单次运行的结果可能会有偏差。尽管可以通过多次采样取平均值来减少这种偏差，但这也会增加计算成本。

为了解决这个问题，我们提出了一种等效的方法，将概率采样转换为加权坐标变换。我们不是概率性地采样点，而是为每个点 zi 分配一个权重 pi，这样可以保证相同的期望结果，同时消除了随机采样引起的偏差。协方差矩阵定义如下：

然后我们对 Cz 进行特征值分解：

对应于最大特征值 λ1 的特征向量 v1 被选为主要方向。由于 Cz 是一个实对称矩阵，次要方向保证与主要方向正交。这种正交性对应于有向边界框两个相邻边之间的垂直关系。

确定了主要和次要方向后，我们沿着这些方向确定物体边界。从中心开始，沿每个方向移动，当某个位置的值低于阈值时停止，这表明已到达物体边界。

3.4 密集场景中的物体区分

在密集场景中，物体在 CPM 上可能难以区分。这会影响 PCA 确定物体方向和边界识别的能力。为了解决这个问题，我们设计了一种“向量约束抑制”方法来解决边界模糊的问题。

向量约束抑制

即使在密集场景中确定了正确的方向，物体边界仍可能不清楚，使用第 3.3 节所述的概率阈值难以精确定位它们。大多数情况下，仅需区分两个紧密排列的物体即可定义物体边界。

我们提出一个简单的约束条件：对于每个 GTi，我们首先找到其最近的同类邻居 GTj，并计算 GTi 和 GTj 之间的向量 u = ⟨GTi, GTj⟩。如果此向量与主要或次要方向之间的角度小于阈值 α（在我们的模型中设置为 π/6），则认为该方向对边界定义有效。边界随后由以下条件约束：

其中 vk 是主要或次要方向，GTj 是离 GTi 最近的同类物体，而 1/2 表示边界应更靠近 GTi 而不是 GTj。

4 实验

4.1 数据集

DOTA是一个大规模的数据集，旨在用于航拍图像中的目标检测，涵盖了各种目标类别和复杂性。DOTA 有三个版本：

DOTA-v1.0 包含 2,806 张图像，共有 188,282 个实例，涵盖 15 个类别。图像大小从 800×800 到 4,000×4,000 像素不等，并且在尺度和方向上表现出显著的变化。
DOTA-v1.5 在 DOTA-v1.0 的基础上扩展了对极小物体（小于 10 像素）的标注，并引入了一个新的类别——集装箱起重机（Container Crane, CC）。它包含总共 403,318 个实例，同时保持与 DOTA-v1.0 相同的图像数量和数据集划分。
DOTA-v2.0 进一步扩展到 11,268 张图像和 1,793,658 个实例，涵盖 18 个类别。新增加了两个类别——机场（Airport, AP）和直升机停机坪（Helipad, HP），提供了更加多样化和具有挑战性的航拍图像集合。

4.2 实验设置

我们的实现基于 MMRotate 库。在伪标签生成阶段，我们使用动量 SGD 作为优化器训练模型 6 个周期。我们将权重衰减设置为 1e-4，初始学习率为 0.005，在第 4 个周期后学习率降低 10 倍。训练的批量大小设置为 2。在使用伪标签训练检测器时，我们使用了与 MMRotate 默认设置相同的检测器配置。在整个训练过程中，唯一使用的数据增强技术是随机翻转。我们的实验使用两块 GeForce RTX 3090 GPU 加速。

4.3 主要结果

DOTA-v1.0 上的结果。如表 1 所示，我们的方法相比之前的领先方法 PointOBB 和 Point2RBox 达到了最先进的性能。具体来说，在三种不同的检测器下，我们的方法分别达到了 41.68%、41.64% 和 44.85% 的 mAP50 分数，相对于 PointOBB 分别提高了 11.60%、8.33% 和 10.90%。此外，与不结合人工先验知识的 Point2RBox-RC 相比，我们的方法取得了显著的 10.78% 提升。即使与利用手绘草图辅助边界确定的 Point2RBox-SK 相比，我们的方法仍然高出 4.58%。这些结果证明了我们方法的鲁棒性和有效性，即使不需要人工先验知识。

DOTA-v1.5/v2.0 上的结果。由于增加了密集排列和更小的物体，DOTA-v1.5 和 DOTA-v2.0 具有更高的难度。如表 2 所示，我们的方法在这两个更具挑战性的数据集上表现出了显著的提升，表明其在处理小而密集分布的物体方面具有优势，这得益于我们设计的分离机制。与 PointOBB 相比，我们的方法在 DOTA-v1.5 和 DOTA-v2.0 上均取得了显著的提升，绝对值和百分比都有所提高。例如，当使用 ReDet 训练时，我们的方法在 DOTA-v1.5 上提升了 36.39%，在 DOTA-v2.0 上提升了 27.22%，分别相当于 25.15% 和 21.19% 的增长，超过了在 DOTA-v1.0 上的 10.90% 提升。此外，我们的方法始终优于 Point2RBox。即使与结合人工先验知识的 Point2RBox-SK 相比，我们的方法在 DOTA-v1.5 和 DOTA-v2.0 上分别提高了 5.88% 和 3.79%。

计算成本。我们的方法非常轻量级，主要是因为其单分支结构，消除了传统师生框架的需求。与其他方法不同，我们不需要进行多次图像变换或模型内的一致性约束。如表 3 所示，我们的模型伪标签训练过程仅需 1.43 小时，比 PointOBB 所需的 22.28 小时快 15.58 倍。

在内存消耗方面，我们的方法也更加高效。对于像 DOTA-v2.0 这样的密集目标场景，我们的方法大约需要 8GB 的内存，适用于大多数 GPU。相比之下，PointOBB 在处理这种密集场景时会遇到内存不足的问题，需要限制 RoI 的数量才能正常运行。然而，这一限制严重影响了检测器的性能，导致许多小目标未被检测到。

4.4 消融研究

标签分配。表 4 展示了我们三种标签分配策略对模型性能的影响。在这些实验中，使用了不同的标签分配策略来训练和生成 CPM。当应用特定策略定义正样本和负样本时，其余点在训练中被忽略。我们观察到，使用简单的圆形策略确定正样本仅能达到 23.62% 的性能。然而，通过采用更全面的策略识别负样本，性能显著提升至 44.75%。进一步地，将物体之间的中间区域分配给负样本（记为“Neg./M”）带来了轻微的改进，使 mAP 提高到 44.85%。这强调了负样本标签分配策略的重要性，该策略对性能提升贡献巨大。

PCA 采样策略和尺寸。我们对 PCA 采样策略和采样范围进行了消融实验。如表 5 所示，我们的加权 PCA 计算方法比概率方法提高了 3.45% 的准确性。我们还发现，这种改进主要受益于长宽比较大的类别，如大型车辆和港口。这是因为长条形物体的 CPM 在其定向边界框的短轴上表现出显著的概率变化，而概率采样方法引入了较大的不稳定性。此外，我们评估了 PCA 采样尺寸的影响。如表 7 所示，当采样尺寸设置为 7 时，我们的方法达到了最佳性能。

向量约束。如表 6 所示，应用向量约束显著提高了检测性能。通过进一步分析，我们发现这种改进主要集中在密集目标类别，如小型车辆、大型车辆和船只。相比之下，港口和游泳池等稀疏类别几乎没有受到影响。这一观察结果与该模块设计的初衷相符，特别是针对密集排列的目标场景。

4.5 分析

标签准确性。考虑到人工标注中可能存在中心点标注不完全准确的情况，我们通过向中心点添加噪声来评估模型的鲁棒性。我们选择了不同的阈值 σ 并计算物体的尺度为。中心点沿均匀采样的方向随机移动，偏移距离从区间 [−σS, σS] 的均匀分布中抽取。我们观察到，随着中心点的扰动，性能略有下降。如表 8 所示，中心点偏移 10% 时，平均 mAP 仅下降了 2.27%。尽管有所下降，我们的方法仍显著优于 PointOBB，展示了模型的强大鲁棒性。

伪标签质量。如表 9 所示，我们的方法在生成伪标签方面始终优于 PointOBB，特别是在更具挑战性的数据集如 DOTA-v1.5 和 DOTA-v2.0 中，性能提升更为显著。具体来说，我们在 DOTA-v1.0、DOTA-v1.5 和 DOTA-v2.0 上分别观察到 mIoU 提升了 0.52%、13.00% 和 16.28%。值得注意的是，尽管在 DOTA-v1.0 上的提升仅为 0.52%，但使用我们的伪标签训练相同的检测器，mAP 相比 PointOBB 几乎提高了 10%。如图 4 所示，第一列和第二列展示了我们的模型学习到了更准确的物体尺度，而第三列则显示，与 PointOBB 生成的小型车辆重叠伪标签不同，我们的方法能够有效区分这些密集排列的物体。

密集目标场景。如表 9 所示，我们选择了三个代表性类别——小型车辆（SV）、大型车辆（LV）和船只（SH），这些类别的特点是小而密集的物体。像 DOTA-v1.5 和 DOTA-v2.0 这样的数据集引入了比 DOTA-v1.0 更多的密集排列物体。在这些具有挑战性的场景中，我们的方法显著优于 PointOBB。例如，在 DOTA-v2.0 上，我们的方法达到了平均 mIoU 42.91% 和 mAP 27.22%，而 PointOBB 分别降至 26.63% 和 6.03%。可视化结果进一步证实了我们的模型在密集场景中生成了更好的伪标签。在检测结果方面，图 4 的最后一列展示了一个包含 25 辆大型车辆的密集场景，我们的方法检测到了所有车辆，而 PointOBB 只识别出 15 辆。

局限性。

(a) 我们的方法基于物体之间的最小距离来分配负样本，要求每张图像至少有两个点注释。在极其稀疏的目标场景中，这可能会降低性能。(b) 一些超参数（例如标签分配中的半径）是根据数据集设定的。在面对其他场景时，可能需要调整这些超参数。

5 结论

在本文中，我们介绍了 PointOBB-v2，这是一种更简单、更快捷且更强的单点监督定向目标检测方法。通过使用类别概率图和主成分分析（PCA）进行目标方向和边界估计，我们的方法在提高检测精度的同时摒弃了传统的耗时且占用大量内存的教师-学生结构。实验结果表明，PointOBB-v2 在多个数据集中始终优于之前的最先进方法，实现了 15.58 倍的训练速度提升，并在 DOTA-v1.0/v1.5/v2.0 数据集上分别取得了 11.60%、25.15% 和 21.19% 的精度提升，特别是在小目标和密集排列目标场景中表现突出。我们的方法在使用较少内存的情况下实现了显著的速度提升和精度提升，展示了其在实际应用中的有效性。

—END—

论文链接：https://arxiv.org/pdf/2410.08210v1

请长按或扫描二维码关注本公众号

喜欢的话，请给我个在看吧！