【论文精读】NWD:一种用于微小目标检测的归一化高斯Wasserstein距离（A Normalized Gaussian Wasserstein Distance for Tiny Object ）

慕溪同学

已于 2024-03-27 18:58:51 修改

阅读量6.8k

点赞数 29

分类专栏：目标检测论文精读文章标签：目标检测人工智能计算机视觉深度学习

于 2024-03-27 16:09:17 首次发布

本BLOG上原创文章未经本人许可，不得用于商业用途。转载请注明出处，否则保留追究法律责任的权利。

本文链接：https://blog.csdn.net/J_oshua/article/details/137048461

版权

目标检测论文精读专栏收录该内容

14 篇文章

订阅专栏

在这里插入图片描述

🚀🚀🚀摘要

📜论文地址：A Normalized Gaussian Wasserstein Distance for Tiny Object Detection
📌代码地址：https://github.com/jwwangchn/NWD
如果想要yolov5中添加NWD方法，实测小目标可以快速涨点，请参考这篇文章：【YOLOv5改进系列(5)】高效涨点----添加密集小目标检测NWD方法

📗翻译

检测微小物体是一个非常具有挑战性的问题，因为微小物体仅包含几个像素大小。我们证明，由于缺乏外观信息，最先进的探测器在微小物体上无法产生令人满意的结果。我们的主要观察结果是，基于IoU (Intersection over Union)的度量(如IoU本身及其扩展)对微小物体的位置偏差非常敏感，并且在基于锚点的检测器中使用时会大大降低检测性能。

为了缓解这个问题，我们提出了一种使用 Wasserstein 距离进行微小物体检测的新评估指标。具体来说，我们首先将边界框建模为 2D 高斯分布，然后提出一种称为归一化 Wasserstein 距离（NWD）的新度量，以通过相应的高斯分布计算它们之间的相似性。

所提出的NWD指标可以很容易地嵌入到任何基于锚点的检测器的分配、非最大抑制和损失函数中，以取代常用的IoU指标。我们在一个用于微小物体检测(AI-TOD)的新数据集上评估我们的度量，其中平均物体大小比现有的物体检测数据集小得多。大量的实验表明，当配备NWD度量时，我们的方法产生的性能比标准微调基线高6.7 AP点，比最先进的竞争对手高6.0 AP点/font> 。

🔥精读
在此之前也有不少研究者发现了IOU度量对于微小物体的偏差非常敏感，也提出了不少改进，像DIOU、GIOU、CIOU、等等，但是都是基于位置去判断两个框的距离和相似度，依旧无法解决小物体的位置敏感问题，在2021年的的时候，早稻田大学的几位华人科学家提出了OTA最优传输策略，从全局的角度出发，用于解决IOU正负样本的标签分配问题，可以很好的解决密集数据集检测精度问题，但是对于小物体的检测，效果并不理想，所以本文中武汉大学的几个研究人员舍弃了IOU度量的这个方法，提出了一种新的度量方法NWD，该方法是通过边界框的高斯分布来去判断预测框和真实框之间的相似度。

在摘要里面作者提出了将NWD应用到检测器的分配、非最大抑制和损失函数中，因为这几个的损失计算包括正负标签的分配都是基于IOU进行判断的，所以作者希望将NWD在网络中完全替代IOU的工作，后面通过实验发现替换之后效果很好。

一、1️⃣ Introduction—介绍

📗翻译
微小物体在许多现实世界的应用中无处不在，包括驾驶辅助、大规模监视和海上救援。尽管由于深度神经网络的发展，物体检测已经取得了很大的进展，但大多数都是用于检测正常大小的物体。而微小物体(AI-TOD数据集中小于16 × 16像素)往往表现出极其有限的外观信息，这增加了识别特征学习的难度，导致微小物体检测失败的案例非常多。

微小目标检测(TOD)的最新进展主要集中在提高特征识别。一些研究致力于对输入图像的尺度进行归一化，以提高小物体及其相应特征的分辨率。而生成式对抗网络(GAN)则被提出直接生成小对象的超分辨表示。

此外，提出了特征金字塔网络(FPN)来学习多尺度特征，实现尺度不变检测器。事实上，现有的方法在一定程度上提高了TOD性能，但精度的提高通常需要额外的成本。

除了学习判别特征外，训练样本选择的质量对于基于锚点的微小目标检测器起着重要作用，其中正负(pos/neg)标签的分配是必不可少的。然而，对于微小的目标，少量像素的特性会增加训练样本选择的难度。如图1所示，我们可以观察到IoU对不同尺度物体的敏感度差异很大。具体来说，对于 6 × 6 像素的微小物体，微小的位置偏差都会导致 IoU 显着下降（从 0.53 到 0.06），从而导致标签分配不准确。然而，对于 36 × 36 像素的普通物体，在相同的位置偏差下，IoU 略有变化（从 0.90 到 0.65）。
在这里插入图片描述

图 1：IoU 对微小和正常尺度物体的敏感性分析,请注意，每个网格表示一个像素，框 A 表示真实边界框，框 B、C 表示分别具有 1 像素和 4 像素对角线偏差的预测边界框。

此外，图2显示了不同目标尺寸的4条IoU-偏差曲线，随着目标尺寸变小，曲线下降得更快。值得注意的是，IoU 的敏感性源于边界框位置只能离散变化的特殊性。
在这里插入图片描述

图 2：两种不同场景下 IoU-偏差曲线和 NWD-偏差曲线的比较,横坐标值表示A和B中心点之间的像素偏差数量，纵坐标值表示对应的度量值。请注意，边界框的位置只能离散变化，值-偏差曲线以散点图的形式呈现。

这一现象意味着IoU度量不再对具有离散位置偏差的对象尺度保持不变，并最终导致标签分配中的以下两个缺陷。具体来说，IoU阈值 $(θp ， θ n)$ 用于在基于锚点的检测器中分配正/负训练样本，(0.7，0.3)用于区域建议网络(RPN)。

首先，IoU对微小物体的敏感性使得锚点标签的位置偏差较小，导致正负样本特征相似，网络难以收敛。
其次，我们发现AI-TOD数据集中分配给每个真实(gt)的平均阳性样本数小于1，因为某些gt与任何锚点之间的IoU小于最小正阈值。因此，对于训练微小目标探测器的监管信息不足。

虽然ATSS等动态分配策略可以根据物体的统计特征自适应地获得分配pos/ negative标签的IoU阈值，但IoU的灵敏度使得很难找到一个好的阈值并为微小物体检测器提供高质量的pos/ negative样本。

观察到 IoU 对于微小物体来说并不是一个好的度量，在本文中，我们提出了一种新的度量来通过 Wasserstein 距离来衡量边界框的相似性，以取代标准 IoU。具体来说，我们首先将边界框建模为二维高斯分布，然后使用我们提出的==归一化 Wasserstein 距离（NWD）==来测量导出的高斯分布的相似度。Wasserstein距离的主要优点是即使没有重叠或重叠可以忽略不计，它也可以衡量分布相似性。此外，NWD对不同尺度的物体不敏感，因此更适合测量微小物体之间的相似性。

NWD 可应用于单阶段和多阶段基于锚点的检测器。此外，NWD不仅可以替代标签分配中的IoU，还可以替代非极大值抑制（NMS）和回归损失函数中的IoU。对新的 TOD 数据集 AI-TOD 进行的广泛实验表明，我们提出的 NWD 可以持续提高所有实验检测器的检测性能。本文的贡献总结如下：

我们分析了 IoU 对微小物体位置偏差的敏感性，并提出 NWD 作为衡量两个边界框之间相似性的更好指标。
我们将NWD应用于基于锚点的检测器中的标签分配、NMS和损失函数，设计了一个功能强大的微小目标检测器。
我们提出的 NWD 可以显着提高流行的基于锚的检测器的 TOD 性能，并且在 AI-TOD 数据集上的 Faster R-CNN 上实现了从11.1% 到 17.6% 的性能提升。

🔥精读
➤ AI-TOD 数据集：
AI-TOD 在 28,036 张航拍图像中包含 8 个类别的 700,621 个对象实例。与现有航拍图像中的目标检测数据集相比，AI-TOD 中目标的平均大小约为 12.8 像素，远小于其他数据集。

➤生成对抗网络：
生成式对抗网络（GAN）是一种深度学习模型，由Ian Goodfellow等人于2014年提出。它由两个神经网络组成：生成器（Generator）和判别器（Discriminator）。这两个网络通过对抗训练的方式相互竞争，从而使得生成器能够生成逼真的数据。

在超分辨率方面，GAN被用于生成高分辨率图像，尤其是从低分辨率输入图像中生成高分辨率版本。这个过程被称为图像超分辨率（Image Super-Resolution）。

GAN直接生成小对象的超分辨表示意味着它们能够从低分辨率的图像输入中生成对应的高分辨率图像。这种方法通过学习输入图像的特征并将其转换为更高分辨率的版本来实现。生成器网络在这里充当了关键角色，它负责将低分辨率图像转换成高分辨率图像，而判别器网络则评估生成的图像是否逼真。通过不断迭代训练，生成器学习如何产生更真实的高分辨率图像，从而实现超分辨率的目标。

这种方法的优势在于，它能够以端到端的方式学习图像的映射，而无需显式地提取特征。这使得模型能够捕捉输入图像的复杂特征，并在生成过程中保持图像的结构和语义信息，从而产生更加逼真和清晰的高分辨率图像。GAN在图像超分辨率领域已经取得了显著的成果，并被广泛应用于各种图像增强和重建任务中。

其实不管是特征金字塔网络FPN还是用GAN生成高像素图像来检查小目标物体，都会牺牲大量的时间去提高精度，会产生额外的成本。

二、2️⃣Related Work—相关工作

2.1 🎓 Tiny Object Detection—微小物体检测

📗翻译

以往的小/微小物体检测方法大多可以大致分为三类：多尺度特征学习、设计更好的训练策略和基于GAN的检测

➤多尺度特征学习： 一种简单而经典的方法是将输入图像的大小调整为不同的尺度，并训练不同的检测器，每个检测器在一定的尺度范围内都能达到最佳的性能。为了降低计算成本，一些研究尝试构建不同尺度的特征级金字塔。例如，SSD从不同分辨率的特征映射中检测对象。特征金字塔网络(Feature Pyramid Network, FPN)构建了一种自上而下的结构，通过横向连接来组合不同尺度的特征信息，以提高目标检测性能。之后，人们提出了许多方法来进一步提高 FPN 性能，包括 PANet、BiFPN 、Recursive-FPN 。此外，TridentNet构建了具有不同感受野的并行多分支架构，以生成特定于尺度的特征图。

➤设计更好的训练策略： Singh等人受到难以同时检测微小物体和大型物体的启发，提出了SNIP和SNIPER，对一定尺度范围内的物体进行选择性训练。此外，Kim等人引入了尺度感知网络(SAN)，并将从不同空间提取的特征映射到尺度不变的子空间上，使检测器对尺度变化具有更强的鲁棒性。

➤基于 GAN 的探测器： 感知GAN是第一个尝试将GAN应用于小物体检测的人，它通过缩小小物体与大物体的表示差异来改进小物体检测。此外，白等人提出了一种MT-GAN来训练图像级超分辨率模型，以增强小ROI的特征。此外，《面向小目标检测的特征超分辨率精确监督》中的工作提出了一种特征级超分辨率方法来提高基于建议的检测器的小目标检测性能。

2.2 ✨Evaluation Metric in Object Detection—目标检测中的评估指标

IoU是衡量边界框之间相似性的最广泛使用的度量标准。然而，只有当边界框重叠时，IoU才能起作用。为了解决这一问题，提出了广义IoU (GIoU)，并在此基础上增加了最小框的惩罚项。然而，当一个边界框包含另一个边界框时，GIoU将降级为IoU。为此，提出了DIoU和CIoU，通过考虑重叠面积、中心点距离和纵横比三个几何性质，克服了IoU和GIoU的局限性。GIoU、CIoU和DIoU主要应用于NMS和损失函数中，以代替IoU提高一般目标检测性能，但在标签分配中的应用很少被讨论。

在同时工作中，杨等人还通过测量定向边界框的位置关系，提出了用于定向对象检测的高斯 Wasserstein 距离（GWD）损失。
然而，GWD 的动机是解决定向目标检测中的边界不连续性和类正方形问题，我们的动机是减轻 IoU 对微小物体位置偏差的敏感性，并且我们提出的方法可以在基于锚框的物体检测器的所有部分中取代 IoU。

2.3 ⭐️Label Assignment Strategies—标签分配策略

将高质量的锚点分配给微小物体的 gt 框是一项具有挑战性的任务，一个简单的方法是在选择正样本时降低IoU阈值。虽然它可以让微小的物体匹配更多的anchor，但训练样本的整体质量会恶化。此外，最近的许多工作试图使标签分配过程更具适应性(比如OTA最优传输分配)，旨在提高检测性能。例如，Zhang等人提出了一种自适应训练样本选择(ATSS)，通过一组锚点的IoU统计值自动计算每个gt的pos/ negative阈值。Kang et al通过假设pos/ negative样本的联合损失分布服从高斯分布，引入了概率锚定分配(PAA)。此外，最优运输分配(OTA)从全局角度将标签分配过程表述为最优运输问题。然而，这些方法都使用IoU度量来衡量两个边界框之间的相似度，并且主要集中在标签分配中的阈值设置，不适合TOD。相比之下，我们的方法主要侧重于设计一个更好的评估指标，可用于替代微小物体检测器中的 IoU 指标。

🔥精读
在这节中介绍了截止到目前为止的一些关于小目标检测问题的相关研究，比如特征金字塔和生成对抗网络提升小目标像素值；包括如何提升精确度的一些方法，比如GWD评估指标、还有标签分配策略，在标签分配策略比较有代表性的就是OTA最优传输策略，将该算法应用到了目标检测中的正负样本匹配当中，有兴趣可以观看我之前写的一篇OTA论文精读。

这里提到了定向对象检测的高斯 Wasserstein 距离（GWD）损失我是比较感兴趣的，在作者提出高斯分布归一化 Wasserstein 距离（NWD） 之前已经有研究人员用高斯分布的方法解决目标检测过程中的相关问题，GWD这个论文我大致研究了一下，论文代码地址如下：

📜论文地址：https://arxiv.org/abs/2101.11952
📌论文代码：https://github.com/yangxue0827/RotationDetection

GWD主要研究一下几个问题：
实际目标检测中，任意朝向的目标在检测数据集中无处不在，相对于水平的目标检测，旋转目标检测仍处于起步阶段。目前，大多数SOTA研究都集中于回归目标的旋转角度，而解决旋转角度则带来新的问题：

i) 指标与损失不一致。
ii) 旋转角度回归区间不连续。
iii) 方形问题。
事实上，以上的问题还没有很好的解决方案，这会极大地影响模型的性能，特别是在角度在范围边界的情况。

GWD主要的思想是：
首先使用二维高斯分布来对旋转目标进行建模，然后使用Gaussian Wasserstein Distance(GWD)来代替不可微的旋转IoU，根据GWD计算loss值，这样就将模型训练和度量标准对齐了。
在这里插入图片描述

该论文的贡献是：

总结了旋转目标检测的三个主要问题。
使用Gaussian Wasserstein Distance(GWD)描述旋转bbox间的距离，再用GWD计算代替IoU损失的loss，且是可微的。
GWD-based损失能够解决旋转角度范围不连续问题和方形问题，且对bbox的定义方式没有要求。在多个公开数据集上进行测试，论文的方法均有不错的表现。

三、3️⃣Method—论文方法

IoU实际上是用于计算两个有限样本集相似性的Jaccard相似系数，受到这一事实的启发，我们基于Wasserstein距离为微小物体设计了一个更好的度量，因为它可以一致地反映分布之间的距离，即使它们没有重叠。因此，在测量微小物体之间的相似性方面，新度量比IoU具有更好的性能。具体情况如下。

3.1 🎓 Gaussian Distribution Modeling for Bounding Box—边界框的高斯分布建模

对于微小物体，由于大多数真实物体不是严格的矩形，因此它们的边界框中往往存在一些背景像素，在这些边界框中，前景像素和背景像素分别集中在边界框的中心和边界上。为了更好地描述边界框中不同像素的权重，可以将边界框建模为二维高斯分布，其中边界框的中心像素权重最高，像素的重要性从中心向边界递减。具体来说，对于水平边界框 $R = (c x, cy, w, h)$ ，其中 $(c x, cy)$ ， $w$ 和 $h$ 分别表示中心坐标、宽度和高度。其内切椭圆的方程可以表示为：
$\begin{aligned}\frac{(x-\mu_x)^2}{\sigma_x^2}+\frac{(y-\mu_y)^2}{\sigma_y^2}&=1\end{aligned}\quad\quad\quad(1)$
式中 $µ_{x}，µ_{y})$ 为椭圆的中心坐标， $σ x$ ， $σ y$ 为沿x、y轴的半轴长度。因此， $\mu_x=cx,\mu_y=cy,\sigma_x=\frac w2,\sigma_y=\frac h2$
二维高斯分布的概率密度函数为：
$f(\mathbf{x}|\boldsymbol{\mu},\boldsymbol{\Sigma})=\frac{\exp(-\frac12(\mathbf{x}-\boldsymbol{\mu})^\intercal\boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu}))}{2\pi|\boldsymbol{\Sigma}|^{\frac12}}\quad\quad\quad(2)$
其中 $\mathbf{x}$ 、 $\boldsymbol{\mu}$ 和 $\boldsymbol{\Sigma}$ 表示高斯分布的坐标(x,y)、均值向量和协方差矩阵，当：
$(\mathbf{x}-\boldsymbol{\mu})^\intercal\boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})=1\quad\quad\quad(3)$
公式1中的椭圆将是二维高斯分布的密度轮廓，因此，水平边界框 $R = (c x, cy, w, h)$ 可以被建模成一个二维高斯分布
$\mathcal{N}(\boldsymbol{\mu},\boldsymbol{\Sigma})$ ：
$\boldsymbol{\mu}=\begin{bmatrix}c_x\\c_y\end{bmatrix},\boldsymbol{\Sigma}=\begin{bmatrix}\frac{w^2}4&&0\\0&&\frac{h^2}4\end{bmatrix}\quad\quad\quad(4)$
此外，边界框A和B之间的相似度可以转换为两个高斯分布之间的分布距离。

3.2 ✨Normalized Gaussian Wasserstein Distance—归一化高斯Wasserstein距离

我们使用最优输运理论中的Wasserstein距离来计算分布距离。对于两个二维高斯分布 $\mu_{1}=\mathcal{N}({\boldsymbol{m}}_{1},\boldsymbol{\Sigma}_{1})$ 和 $\mu_{2}=\mathcal{N}({\boldsymbol{m}}_{2},\boldsymbol{\Sigma}_{2})$ ， $\mu_{1}$ 和 $\mu_{2}$ 之间的二阶 Wasserstein 距离定义为：
$W_2^2(\mu_1,\mu_2)=\left\|\mathbf{m}_1-\mathbf{m}_2\right\|_2^2+\mathbf{Tr}\left(\mathbf{\Sigma}_1+\mathbf{\Sigma}_2-2\left(\mathbf{\Sigma}_2^{1/2}\mathbf{\Sigma}_1\mathbf{\Sigma}_2^{1/2}\right)^{1/2}\right)（5）$
可以简化为：
$W_2^2(\mu_1,\mu_2)=\left\|\mathbf{m}_1-\mathbf{m}_2\right\|_2^2+\left\|\mathbf{\Sigma}_1^{1/2}-\mathbf{\Sigma}_2^{1/2}\right\|_F^2（6）$

其中， $\left\|\cdot\right\|_{F}$ 是Frobenius范数。
此外，对于高斯分布 $\mathcal{N}_{a}$ 和 $\mathcal{N}_{b}$ ，它们是根据边界框 $A = (c x a, cy a, w a, ha)$ 和 $B = (c x b, cy b, w b, hb)$ 建模的，公式(6)可以进一步简化为：
$W_2^2(\mathcal{N}_a,\mathcal{N}_b)=\left\|\left(\left[cx_a,cy_a,\frac{w_a}{2},\frac{h_a}{2}\right]^\mathrm{T},\left[cx_b,cy_b,\frac{w_b}{2}.\frac{h_b}{2}\right]^\mathrm{T}\right)\right\|_2^2（7）$

然而， $W_{2}^{2}(\mathcal{N}_{a},\mathcal{N}_{b})$ 是距离度量，并且不能直接用作相似性度量（即0到1之间的值作为IoU）。因此，我们使用其指数形式归一化，并获得称为归一化 Wasserstein 距离（NWD）的新度量。
$NWD\left(\mathcal{N}_a,\mathcal{N}_b\right)=\exp\left(-\frac{\sqrt{W_2^2\left(\mathcal{N}_a,\mathcal{N}_b\right)}}C\right)（8）$
其中 $C$ 是与数据集密切相关的常数，在接下来的实验中，我们凭经验将 $C$ 设置为AI-TOD的平均绝对尺寸并获得最佳性能。此外，我们观察到 $C$ 在一定范围内是稳健的，详细信息将在补充材料中显示。

🔥与 IoU 相比，NWD 在检测微小物体方面具有以下优势：(1)尺度不变性（2）位置偏差的平滑度（3）测量不重叠或相互包含的边界框之间相似性的能力。如图2所示：不失一般性，我们讨论以下两种情况下度量值的变化。在图2的第一行中，我们保持盒子A和B相同的尺度，沿着A的对角线移动B，可以看到NWD的四条曲线完全重合，这表明NWD对边界框的尺度变化不敏感。此外，我们可以观察到 IoU 对微小的位置偏差过于敏感，但位置偏差引起的 NWD 变化更加平滑。位置偏差的平滑度表明在相同阈值下，与 IoU 相比，有可能更好地区分 pos/neg 样本。图2第二行：我们将B的边长设置为A的边长的一半，并沿着A的对角线远离B。与IoU相比，NWD的曲线更加平滑，即使在|A∩B|= A或B ，且 |A ∩ B|=0。

3.3 ⭐️NWD-based Detectors—基于NWD的探测器

🚀所提出的NWD可以很容易地集成到任何锚定式检测器中，以取代IoU。在不损失一般性的前提下，采用具有代表性的基于锚点的Faster R-CNN来描述NWD的使用。具体来说，所有的修改都是在原来使用IoU的三个部分进行的，包括pos/ negg标签分配、NMS和回归损失函数。具体情况如下。

➤基于NWD的标签分配。 Faster R-CNN由两个网络组成：用于生成区域提案的 RPN 和用于基于这些提案检测对象的 R-CNN ，RPN和R-CNN都包含标签分配过程。对于RPN，首先生成不同尺度和比例的anchor，然后将二进制标签分配给anchor以训练分类和回归头，对于R-CNN来说，标签分配过程与RPN类似，不同的是R-CNN的输入是RPN的输出。为了克服IoU在微小物体检测中的上述缺点，我们设计了基于NWD的标签分配策略，利用NWD来分配标签。具体来说，为了训练 RPN，正标签将被分配给两种锚：
(1) 具有 gt 框的 NWD 值最高且 NWD 值大于 $θ_{n}$ 的锚点或
(2) 具有任何 gt 的 NWD 值高于正阈值 $θ_{p}$ 的锚点，因此，如果锚点的 NWD 值低于所有 gt 框的负阈值 $θ_{n}$ ，则负标签将被分配给该锚点。
此外，既没有分配正标签也没有分配负标签的锚点不参与训练过程。请注意，为了将 NWD 直接应用于基于锚的检测器，实验中使用 $θ_{p}$ 和 $θ_{n}$ 作为原始检测器。

➤基于nwd的NMS：NMS 是对象检测管道的一个组成部分，用于抑制冗余预测边界框，其中应用了 IoU 度量。首先，它根据分数对所有预测框进行排序。选择得分最高的预测框 $\mathcal{M}$ ，并抑制与 $\mathcal{M}$ 有显着重叠（使用预定义阈值 $N_{t}$ ）的所有其他预测框。该过程递归地应用于剩余的框。然而，IoU对微小物体的敏感性会使得大量预测框的IoU值低于Nt $N_{t}$ ，这进一步导致误报预测。为了解决这个问题，我们建议 NWD 是微小物体检测中 NMS 的更好标准，因为 NWD 克服了尺度敏感性问题。此外，基于 NWD 的 NMS 可以灵活地集成到任何微型物体检测器中，只需少量代码。

➤基于 NWD 的回归损失：引入 IoU-Loss 来消除训练和测试之间的性能差距，然而，在以下两种情况下，IoU-Loss 无法提供用于优化网络的梯度：（1）预测边界框 $P$ 和真实框 $G$ 之间没有重叠（即 |P ∩G| = 0）或（2) 框 P 完全包含框 G，反之亦然（即 |P ∩ G| = P 或 G）。另外，这两种情况对于微小物体来说很常见，具体来说，一方面，P中少数像素的偏差会导致P和G不重叠，另一方面，微小物体很容易被错误预测，导致|P∩G| = P 或 G。因此，IoU-Loss不适用于微小物体检测器。CIoU和DIoU虽然可以处理以上两种情况，但由于它们都是基于IoU的，所以对微小物体的位置偏差比较敏感。为了解决上述问题，我们将NWD度量设计为损失函数：
$\mathcal{L}_{NWD}=1-NWD\left(\mathcal{N}_p,\mathcal{N}_g\right)（9）$
其中 $\mathcal{N}_p$ 是预测框 $P$ 的高斯分布模型， $\mathcal{N}_g$ 是gt框 $G$ 的高斯分布模型。根据第 3.2 节的介绍，基于NWD的损失即使在两种情况下都可以提供梯度|P ∩ G| = 0 且 |P ∩ G| = P 或 G。

四、4️⃣Experiments—相关实验

📗翻译
我们在 AI-TOD 和 VisDrone2019 数据集上评估了所提出的方法，消融研究是在 AI-TOD 上进行的，这是一个专为微小物体检测而设计的具有挑战性的数据集。它包含 8 个类别、700、621 个对象实例，分布在 28、036 张 800 × 800 像素的航拍图像中。AI-TOD的平均绝对大小仅为12.8像素，远小于其他目标检测数据集，如PASCAL VOC（156.6像素）、MS COCO（99.5像素）和 DOTA（55.3 像素）。此外，VisDrone2019 是一个用于物体检测的无人机数据集，它由 10 个类别的 10,209 张图像组成。VisDrone2019 具有许多复杂的场景和大量的微小物体，因为图像是在不同的地方、不同的高度捕获的。

我们采用与AI-TOD[29]数据集相同的评估指标，包括AP、AP0.5、AP0.75、APvt、APt、APs和APm。其中，AP为不同IoU阈值下的平均mAP, IoU={0.5, 0.55，···，0.95}，AP0.5和AP0.75分别为IoU阈值为0.5和0.75时的AP。另外，APvt、APt、APs和APm分别针对AI-TOD中的极小（2-8像素）、微小（8-16像素）、小（16-32像素）和中（32-64像素）尺度评估。

我们所有的实验都是在一台带有4个NVIDIA Titan X gpu的计算机上进行的，我们实验使用的代码是基于MMdetection代码库的。除非另有说明，否则使用ImageNet预训练的带有FPN的ResNet-50作为主干。所有模型都使用SGD优化器进行了12个epoch的训练，动量为0.9，权重衰减为0.0001，批大小为8。我们将初始学习率设置为0.01，并在epoch 8和11时以0.1的倍数衰减它。另外，RPN和Fast R-CNN的批大小分别设置为256和512，正负样本的采样比例设置为1/3。设置RPN生成的推荐个数为3000。在推理阶段，我们使用预设分数0.05过滤掉背景边界框，使用IoU阈值0.5的NMS。除非另有说明，上述训练和推理参数用于所有实验。

4.1 🎓 Comparison with Other Metrics based IoU—与其他基于 IoU 指标的比较

如第2节所述，可以使用一些基于iou的指标来衡量边界框之间的相似性。在这项工作中，我们在相同的基本网络(即faster R-CNN)上重新实现了上述四个指标(即iou, GIoU, CIoU和DIoU)和我们提出的NWD，以比较它们在微小对象上的性能。具体来说，它们分别应用于标签分配、NMS和损失函数。AI-TOD数据集的实验结果如表1所示。

➤标签赋值中的比较：注意，RPN和R-CNN的分配模块中的度量都被修改了。可以看出，与IoU度量相比，NWD在AP上达到了最高的16.1%，在APt上提高了9.6%，这表明基于NWD的标签分配可以为微小物体提供更多高质量的训练样本。此外，为了分析改进的实质，我们做了一组统计实验。具体而言，我们分别计算了相同默认阈值下使用IoU、GIoU、DIoU、CIoU和NWD时，每个gt box匹配的平均正锚数，分别为0.72、0.71、0.19、0.19和1.05。可以发现，只有NWD才能保证有相当数量的正训练样本。此外，虽然简单地降低基于 IoU 的度量的阈值可以为训练提供更多的正锚点，但阈值微调后基于 IoU 的微小物体检测器的性能并不比基于 NWD 的检测器的性能更好，这将进一步提高,在补充材料中讨论。这归因于NWD可以解决IoU对微小物体位置偏差的敏感性。
在这里插入图片描述

表 1：标签分配、NMS 和损失函数中不同指标的比较。

➤NMS 中的比较：因为只有RPN中的NMS才能直接影响检测器的训练处理，所以在本实验中我们只修改了RPN的NMS模块。可以看出，在训练过程中使用不同的指标来过滤掉冗余的预测也会影响检测性能。具体而言，NWD的最佳AP为11.9%，比常用的IoU高0.8%。这意味着在检测微小物体时，NWD是过滤冗余边界框的更好度量。

➤损失函数的比较：注意，我们在RPN和R-CNN中都修改了损失函数，这两者都会影响检测器的收敛性。同时可以看出，基于nwd的损失函数AP最高，为12.1%。

4.2 ✨Ablation Study—消融实验

🎯本节以Faster R-CNN为基准，分为RPN和R-CNN两个阶段。我们提出的方法可以同时应用于RPN和R-CNN的标签分配、NMS、损失函数模块，因此总共有6个模块可以从IoU度量切换到NWD度量。为了验证我们提出的方法在不同模块中的有效性，我们进行了以下两组消融研究:将NWD应用于六个模块中的一个模块的比较，以及将NWD应用于RPN或R-CNN中所有模块的比较。

➤将NWD应用于单个模块。：实验结果如表2所示。与基线方法相比，RPN 和 R-CNN 中基于 NWD 的分配模块分别实现了最高和第二高的 AP 改进，分别为 6.2% 和 3.2%，这表明由 IoU 引起的微小对象训练标签分配问题是最严重的。值得注意的是，我们提出的基于 NWD 的分配策略极大地提高了分配质量。我们还可以观察到，我们提出的方法在6个模块中的5个模块中提高了性能，这极大地验证了我们基于nwd的方法的有效性。R-CNN的NMS的性能下降可能是由于默认的NMS阈值不是最优的，需要对其进行微调以提高性能。
在这里插入图片描述

表2：NWD应用于单个模块时的消融实验。

➤将NWD应用于多个模块：表3列出了实验结果。当训练 12 个 epoch 时，在 RPN、R-CNN 或所有模块中使用 NWD 时，检测性能均取得显着提升。当我们将 NWD 应用于 RPN 的所有三个模块时，获得了 17.8% 的最佳性能。然而，我们发现，当在所有六个模块中使用 NWD 时，与在 RPN 中仅使用 NWD 相比，AP 下降了 2.6%。为了分析性能下降的原因，我们添加了一组实验并对网络进行了 24 个 epoch 的训练,可以看出，性能差距从 2.6% 减少到 0.9%，这表明在 R-CNN 中使用 NWD 时网络需要更多的时间来收敛。因此，在接下来的实验中，我们只在RPN中使用NWD，以更少的时间获得可观的性能提升。
在这里插入图片描述

表3：NWD应用于多个模块时的消融实验。

4.3 ⭐️Main Results—主要结果

为了揭示 NWD 在 TOD 上的有效性，我们在微小物体检测数据集 AI-TOD和 VisDrone2019上进行了实验。

➤关于AI-TOD的主要结果：为了验证NWD可以应用于任何基于锚点的检测器并提高TOD性能，我们选择了五个基线检测器，包括单阶段基于锚点的检测器（即，RetinaNet ，ATSS）和多阶段基于锚的检测器（即，Faster R-CNN，Cascade R-CNN ，DetectoRS ）。实验结果见表4，可以看出，目前最先进的探测器的APvt非常低，接近于零，这意味着它们不能在微小物体上产生令人满意的结果。此外，我们提出的基于NWD的检测器将RetinaNet，ATSS，Faster R-CNN，Cascade R-CNN和DetectoRS的AP度量分别提高了4.5%，0.7%，6.7%，4.9%和6.0%。当物体非常小时，性能提升更加明显,值得注意的是，基于 NWD 的 DetectoRS 在 AI-TOD 上实现了最先进的性能（20.8% AP）。图 3 显示了在 AI-TOD 数据集上使用基于 IoU 的检测器（第一行）和基于 NWD 的检测器（第二行）的一些可视化结果。我们可以观察到，与IoU相比，NWD可以显著降低假阴性(FN)。
在这里插入图片描述

表 4：AI-TOD 测试集上基线和 NWD（带 *）的定量比较。

在这里插入图片描述

图 3：使用 AI-TOD 数据集的基于 IoU 的检测器（第一行）和基于 NWD 的检测器（第二行）的检测结果可视化。绿色、蓝色和红色框分别表示真阳性（TP）、假阳性（FP）和假阴性（FN）预测。

➤Visdrone 上的主要结果。：除了AI-TOD，我们还使用VisDrone2019来验证基于nwd的检测器的泛化性，该VisDrone2019包含许多不同场景的微小物体。结果如表5所示，可以看出，基于 NWD 的基于锚的检测器都比其基线取得了相当大的改进。
在这里插入图片描述

表 5：VisDrone2019 验证集上基线和 NWD（带 *）的定量比较。

🔥精读
➤消融实验概念：
实验部分最核心的就是控制变量，大家在做实验的时候一定要牢牢把握住这个思想！
消融实验：就是初高中的控制变量法的体现，在基础模型上叠加不同模块，分析每个模块的作用。
维基百科：在人工智能(AI)，尤其是机器学习(ML)领域，消融(ablation) 指移除AI系统的一个组件。 Ablation study 指通过研究AI系统移除某一组件之后的性能，来理解该组件对整个系统的作用。Ablation study 要求系统表现出适度退化(graceful degradation)：即使丢失或削弱某个组件系统也能保持功能继续运行。
（简单概括：在一个实验中，涉及到a,b,c三个改进模块，不知道哪个模块对实验起啥效果，如果想知道a模块对整个实验的作用，去掉a模块，进行对比，以此求知。）

以我自己改进的系列源码中的模块为例：提出的模型为YOLOv8+Ghost+RepViT，那么我可以做以下模型的训练、验证和测试实验，进行对比分析：

YOLOv8
YOLOv8+Ghost
YOLOv8+RepViT
YOLOv8+Ghost+RepViT

以此分别分析不同模块的作用，验证论文提出的模型。

➤真阳性（TP）、假阳性（FP）和假阴性（FN）
在图片3中介绍了几个预测的概念，我当时也是很难区分开的，这里解释一下：
TP(True Positive—正确的正向预测)：表示模型正确识别出的正样本数
FP(False Positive—错误的正向预测）：表示模型错误地将负样本错误识别为正样本的数量
FN(False Negative—错误的负向预测)：表示模型错误地将正样本错误地识别为负样本的数量
其实还有一个概念TN(True Negative—正确的负向预测)：表示模型正确识别出的负样本数。即模型正确地将背景或非目标区域排除在外的数量。但是在mAP评价指标中不会使用到，所以我们一般忽略这个指标。如果还不理解的话可以看一下这篇论文：目标检测评估指标

五、5️⃣Conclusion—结论

🚀在本文中，我们观察到基于 IoU 的指标对微小物体的位置偏差很敏感，这极大地恶化了微小物体的检测性能，为了解决这个问题，我们提出了一种称为归一化 Wasserstein 距离（NWD） 的新度量来测量微小物体的边界框之间的相似性。在此基础上，我们进一步提出了一种新型的基于 NWD 的微小目标检测器，将 NWD 嵌入到基于锚的检测器的标签分配、非极大值抑制和损失函数中以取代原始的 IoU 度量。实验结果表明，我们提出的方法可以大幅提高微小物体检测性能，并在 AI-TOD 数据集上达到最先进的水平。

在这里插入图片描述