IoU-Net

最新推荐文章于 2024-07-06 04:11:16 发布

rrr2

最新推荐文章于 2024-07-06 04:11:16 发布

阅读量8.2k

点赞数 1

分类专栏：深度学习文章标签： IOU

本文链接：https://blog.csdn.net/qq_35608277/article/details/81512294

版权

深度学习专栏收录该内容

119 篇文章 4 订阅

订阅专栏

摘要：现代基于 CNN的目标检测器依靠边界框回归和非极大抑制（NMS）来定位目标，其对类别标签的预测概率可以天然反映每个框的分类置信度，然而对框的定位置信度却缺失了。这使得原本定位准确的边界框会在迭代回归的过程中偏离目标，又或甚至在NMS 过程中受到抑制。研究者在本文中提出 IoU-Net，可学习预测每个检测得到的边界框和与之匹配的目标之间的 IoU作为该框的定位置信度。利用这种定位置信度，检测器能确保定位更准确的边界框在 NMS 过程中被保留下来，从而改进了 NMS 过程。此外，将预测得到的 IoU作为优化目标，一种基于优化的边界框修正方法也同时被提出。研究者在 MS-COCO 数据集上进行了大量实验，结果证明了 IoU-Net的有效性，并且还表明其能够轻松地集成并提高包括 Faster R-CNN、FPN、Cascade R-CNN 等多种当前最佳的目标检测器。

1 引言

目标检测是很多下游视觉应用的前提基础，比如实例分割 [19,20]、人体骨架绘制 [27]、人脸识别 [26] 和高级目标推理[30]。它结合了目标分类和目标定位两个任务。现代大多数目标检测器的框架是 two-stage[9,8,22,16,10]，其中目标检测被定义为一个多任务学习问题：1）区分前景物体框与背景并为它们分配适当的类别标签；2）回归一组系数，这组系数通过最大化检测框和目标框之间的交并比（IoU）或其它指标定位目标。最后，通过NMS 过程移除冗余的边界框（对同一目标的重复检测）。

在这样的检测流程中，分类和定位被用不同的方法解决。具体来说，给定一个建议框（proposal），每个类别标签的概率可自然而然地用作该提议的「分类置信度」，而边界框回归模块却只是预测了针对该建议框的最优变换系数，以拟合目标物体的位置。换而言之，在这个流程缺失了「定位置信度」。

定位置信度的缺失带来了两个缺点。（1）首先，在抑制重复检测时，由于定位置信度的缺失，分类分数通常被用作给检测框排名的指标。在图 1(a)中，研究者展示了一组案例，其中有更高分类置信度的检测框却与其对应的目标物体有更小的重叠。就像 Gresham著名的「劣币驱逐良币」理论一样，分类置信度和定位准确度之间的不匹配可能会导致定位更准确的边界框在 NMS过程中反而被更不准确的边界框抑制了。
这里写图片描述
图1由缺乏定位置信度所造成的两个缺点的图示。
（a）分类置信度和定位准确度不对齐的示例。黄框表示真实目标框，红框和绿框都是 FPN [16] 所得到的检测结果。定位置信度是由研究者提出的IoU-Net 计算得到的。使用分类置信度作为排名指标，会导致定位更准确的边界框（绿框）在传统的 NMS 流程被错误地删去。2.1节提供了定量分析。

（2）其次，缺乏定位置信度使得被广泛使用的边界框回归方法缺少可解释性或可预测性。举个例子，之前的研究 [3]报告了迭代式边界框回归的非单调性。也就是说，如果多次应用边界框回归，可能有损输入边界框的定位效果（见图 1(b)）。
这里写图片描述
图1（b）在迭代式边界框回归中非单调定位的示例。2.2 节提供了定量分析。

研究者在这篇论文中引入了 IoU-Net，其能预测检测到的边界框和它们对应的真实目标框之间的IoU，使得该网络能像其分类模块一样，对检测框的定位精确程度有所掌握。这种简单的预测 IoU 值能为研究者提供前述问题的新解决方案：

1.IoU 是定位准确度的一个天然标准。研究者可以使用预测得到的 IoU 替代分类置信度作为 NMS 中的排名依据。这种技术被称为 IoU 引导式 NMS（IoU-guided NMS），可消除由误导性的分类置信度所造成的抑制错误。

2 . 研究者提出了一种基于优化的边界框修正流程，可与传统的基于回归的边界框修正方法分庭抗礼。在推理期间，预测得到的 IoU 可用作优化目标，也可作为定位置信度的可解释性指示量。研究者提出的精准 RoI 池化层（Precise RoI Pooling layer）让研究者可通过梯度上升求解 IoU 优化。研究者表明，相比于基于回归的方法，基于优化的边界框修正方法在实验中能实现定位准确度的单调提升。这种方法完全兼容并可整合进各种不同的基于 CNN 的检测器 [16,3,10]。

2 深入位置定位

首先对两个问题进行探究：类别置信度和定位精度之间的不匹配问题、边界框回归非单调问题。训练集采用coco trainval35k，测试集使用minival，检测框架为FPN[16].

2.1 类别不匹配和定位精度

为了消除重复的边界框，NMS一直是自[4]以来，大多数物体探测器中不可或缺的组成部分。 NMS的工作原理迭代的方式。在每次迭代时，选择最大分类置信度的边界框并使用预定的重叠阈值消除相邻的框。在Soft-NMS [2]算法中，框消除是取而代之的是减少置信度，导致更高的召回率。最近，提出了一系列基于学习的算法作为NMS和Soft-NMS的替代方法。 [24]计算所有边界框的重叠矩阵并执行一个传播聚类来选择聚类的样本作为最终检测结果。 [11]提出了一个后处理网络GossipNet基于边界框和分类策略为NMS进行训练。 [12]提出了一种端到端网络，用于学习检测到的边界框之间的关系。但是，这些基于参数的方法需要更多的计算资源限制了他们的实际应用。

在广泛采用的NMS方法中，分类置信度用于对边界框进行排序，这可能是有问题的。我们在NMS之前可视化所有检测到的边界框的分类置信度分布，如图2（a）所示。 x轴是检测框与其匹配的真值之间的IoU，而y轴表示其分类置信度。 Pearson相关系数表明定位精度与分类相关性没有很好的相关性。（每个散点代表一个样本？？定位置信度又如何定义？）
这里写图片描述
图2
我们将其归因于在区分前景和背景时大多数基于CNN的物体探测器使用的目标函数。如果在其训练期间检测到的边界框与其中一个真值边界框大于阈值IoU，则认为它是正样本。此目标可能与定位准确性不一致。图2（a）显示了具有较高分类置信度的边界框具有较差定位的情况。

在传统的NMS中，当单个对象存在重复检测时，将保留具有最大分类依赖性的边界框。然而，由于不匹配，具有更好定位的边界框可能在NMS期间被抑制，导致对象的不准确定位。图3定量地显示了NMS之后的正边界框的数量。边界框按其IoU分组。对于与相同的真值匹配的多个检测，只有具有最高IoU的那个被认为是正的。因此，No-NMS可以被认为是正边界框数量的上限（为什么在0.5、0.6、0.7绿色的都不是最多的？？）。我们可以看到，在传统的NMS过程中，缺少定位置信度使得IoU> 0.9的检测到的边界框的一半以上被抑制，这降低了检测结果的定位质量。

这里写图片描述
图3：NMS之后的正边界框的数量，按其IoU和匹配真值进行分组。在传统的NMS（蓝色条）中，由于分类置信度和定位精度的不匹配，精确定位的边界框的重要部分被错误地抑制，而IoU引导的NMS（黄色条）保留了更准确的局部化边界框。

2.2回归非单调

通常，单个对象本地化可以分为两类：基于边界框的方法和基于分段的方法。基于分割的方法[19,20,13,10]旨在为每个实例生成像素级分割，但不可避免地需要额外的分割注释。这项工作侧重于基于边界框的方法。

单个对象定位通常被公式化为边界框回归任务。核心思想是网络直接学习将边界框转换（缩放或移位）到其指定目标。在[9,8]中，应用线性回归或全连接层来修正由外部预处理模块（例如，SS[28]或EdgeBoxes [33]）生成的对象提议的定位。faster R-CNN [23]提出了区域提议网络（RPN），其中仅使用预定候选框来训练端到端物体检测器。 [14,32]利用无锚点，全卷积网络来处理对象尺度变化。同时，在[29]中提出排斥损失以鲁棒地检测具有人群遮挡的物体。由于其有效性和简单性，边界框回归已成为大多数基于CNN的探测器的重要组成部分。

广泛的下游应用程序（如跟踪和识别）将受益于精确定位的边界框。这提高了对提高定位精度的要求。在一系列物体探测器[31,7,6,21]中，再次将修正框送入边界框回归器并再次进行位置精修。该过程执行若干次，即迭代边界框回归。faster R-CNN [23]首先执行两次边界框回归，以将预定锚点转换为最终检测到的边界框。 [15]提出了一种群体递归学习方法，以迭代地重新检测检测结果，并在考虑多个候选框之间的全局依赖性的情况下，最小化候选框与真值之间的偏移。在[18]中提出了G-CNN，它从图像上的多尺度规则网格开始，并迭代地将网格中的方框推向真值。然而，正如[3]中所说的，应用边界框回归两次以上没有进一步改进。 [3]将此归因于多步边界框回归中的分布不匹配，并通过多阶段边界框回归中的重采样策略对其进行解决。
这里写图片描述
图4
我们通过实验证明了基于FPN和Cascade R CNN框架的迭代边界框回归的性能。每次迭代后结果的平均精度（AP）分别显示为图4（a）和图4（b）中的蓝色曲线。图4中的AP曲线表明，随着迭代次数的增加，定位精度的提高对于迭代边界框回归是非单调的。非单调性以及不可解释性给应用带来了困难。此外，如果没有对检测到的边界框定位置信度，我们就无法对该网格进行更精细的控制，例如对不同的边界框使用自适应迭代次数。

IoU-Net

为了定量分析IoU预测的有效性，我们首先介绍了3.1节中用于训练IoU预测器的方法。在3.2节和3.3节中，我们分别展示了如何使用IoU预测器进行NMS和边界框精修。最后在3.4节中，我们将IoU预测器集成到现有的物体探测器中，如FPN [16]。
这里写图片描述
图5

3.1 学习预测IOU

如图5所示，IoU预测器从FPN获取视觉特征并估计每个边界框的定位精度（IoU）。我们通过增加真值来生成用来训练IoU-Net的边界框和标签，而不是从RPN中获取建议框。具体而言，对训练集中的所有真值边界框，我们使用一组随机参数手动变换它们，从而生成候选边界框集。然后，我们从该候选集中移除具有与匹配真值的IoU小于train = 0.5的边界框。我们统一从关于 IoU的候选集中抽取训练数据。该数据生成过程凭经验为IoU-Net带来了更好的性能和稳健性。对于每个边界框，使用t提出的精确RoI池化层从FPN的输出中提取特征（参见第3.3节）。然后将这些特征馈入用于IoU预测的双层前馈网络。为了获得更好的性能，我们使用了类感知的IoU预测器。

IoU预测器与大多数现有的基于RoI的探测器兼容。独立IoU预测器的准确度可以在图2中找到。由于训练过程独立于特定检测器，因此它对输入分布的变化是稳健的（例如，当与不同的检测器协作时）。在后面的部分中，我们将进一步演示如何在完整检测流水线中（即，与RPN和R-CNN联合）联合优化该模块。

3.2 IOU引导的NMS

我们通过一种新的IoU引导NMS过程解决了分类能力和定位精度之间的不一致问题，其中分类置信度和定位置信度（IoU的估计）被解开。简而言之，我们使用预测的IoU代替分类信息作为边界框的排名依据。与传统的NMS类似，将选择具有最高IoU以消除大于给定阈值nms的重叠的所有其他建议框。为了确定分类分数，当方框i消除方框j时，我们通过si = max（si，sj）更新方框i的分类保证si。此过程也可以解释为置信度聚类：对于匹配相同真值的一组边界框，我们对类标签采取最一致的预测。可以在算法1中找到该算法的伪代码。
这里写图片描述
IoU引导的NMS解决了分类置信度和定位精度之间的不一致。定量结果表明，我们的方法优于传统的NMS和其他变体，如Soft-NMS [2]。使用IoU引导的NMS作为后处理器进一步推动了几种最先进的物体探测器的性能。

3.3 边界框修正作为优化过程

边界框精修问题可以通过数学方法定义，找到最优的c*：
这里写图片描述
其中boxdet是检测到的边界框，boxgt是（目标）真值边界框，transform是一个边界框变换函数，以c*为参数并变换给定的边界框。 crit是衡量两个边界框之间距离的标准。在原始faster-R-CNN [5]框架中，crit被选择为对数尺度的坐标的smooth-L1距离，而在[32]中，crit为两个边界框之间的-ln（IoU）。

基于回归的算法用前馈神经网络直接估计最优解c* 。然而，迭代边界框回归方法易受输入分布变化的影响[3]，并可能导致非单调的本地化改进，如图4所示。为了解决这些问题，我们提出了一种基于优化的边界框精修方法。利用IoU-Net作为鲁棒定位精度（IoU）估计器的方法。此外，IoU估计器可以用作早期停止条件，以通过自适应步骤实现迭代精修。

IoU-Net直接估算IoU（boxdet; boxgt）。虽然所提出的精确RoI池化层能够计算关于边界框坐标的IoU的梯度，我们可以直接使用梯度上升方法找到方程1的最优解。在算法2中，将IoU的估计视为优化目标，我们迭代地使用计算的梯度更新边界框坐标和最大化检测到的边界框与其匹配的真值之间的IoU。此外，预测的IoU是每个边界框上的定位置信度的可解释指示符，并且有助于解释所做的转换。
这里写图片描述
在实现中，如算法2第6行所示，我们手动按比例放大渐变w.r.t. 具有该轴上的边界框大小的坐标。这相当于在[5]中以对数缩放坐标（x = w; y = h; log w; log h）执行优化。我们还使用一步式边界框回归来初始化坐标。

PrROI Pooling
我们引入了精确的RoI Pooling（PrRoI Pooling，简称PrRoI Pooling），增进边界框精修。它避免了任何坐标量化，并在边界框坐标上具有连续梯度渐变。给定RoI / PrRoI池化之前的特征映射F（例如，来自ResNet-50中的Conv4），令wi， j是特征映射上的一个离散位置（i; j）处的特征。使用双线性插值，可以在任何连续坐标（x; y）处将离散特征映射视为连续的：

这里写图片描述
是插值系数。
然后将一个RoI的bin表示为bin = f（x1， y1），（x2， y2）g，其中（x1， y1）和（x2，y2）分别是左上和右下点的连续坐标。我们通过计算二阶积分来执行给定bin和特征映射F的池化（例如，平均池化）：
这里写图片描述

为了更好地理解，我们在图6中可视化RoI Pooling，RoI Align [10]和我们的PrRoI Pooing：在传统的RoI Pooling中，需要先量化连续坐标以计算bin中激活值的总和; 为了消除量化误差，在RoI Align中，在bin中对N = 4个连续点进行采样，表示为（ai; bi），并且在采样点上执行合并。 RoI Align中N是预先定义的，而且不是关于bin的大小自适应，PrRoI池化则是基于连续特征映射直接计算二阶积分。

此外，基于上述的公式，PrPool（Bin; F）是关于bin可微分的坐标。例如，PrPool（B; F）的关于x1偏导数可以计算为：
这里写图片描述
其他偏微分同上。由于我们避免任何量化，ParPool是连续可微的。

3.4联合训练

这种 IoU 预测器可集成到标准的 FPN 流程中，以进行端到端的训练和推理。为了清楚说明，研究者将用于图像特征提取的 CNN架构称为骨干（backbone），将应用于各个 RoI 的模块称为头（head）。

如图 5 所示，这个 IoU-Net 使用了 ResNet-FPN [16] 作为骨干网络，其架构是自上而下的，可构建特征金字塔（featurepyramid）。FPN 能根据 RoI 的特征的比例从这个特征金字塔的不同层级提取这些 RoI 的特征。其中原来的 RoI 池化层被换成了精准 RoI池化层。至于该网络的头，这个 IoU 预测器根据来自骨干网络的同一特征而与 R-CNN 分支（包括分类和边界框回归）并行工作。

研究者根据在 ImageNet [25] 上预训练的 ResNet 模型初始化了权重。所有新的层都使用了标准差为 0.01 或 0.001的零均值高斯分布进行初始化。研究者使用了smooth L1 损失来训练 IoU 预测器。IoU 预测器的训练数据是在一个训练批中的图像中单独生成的，详见 3.1节。IoU 标签进行了归一化，其值分布在 [-1,1]。

对输入图像的大小进行了调节，短边长度为 800 像素，长边长度最大为 1200 像素。分类和回归分支取来自 RPN 的每张图像 512 RoI。研究者使用了16 的批大小进行训练。网络为 16 万次迭代进行了优化，学习率设置为 0.01，并在 12 万次迭代后减小 10 倍。研究者还为前 1 万次迭代设置了0.004 的学习率以进行预热。研究者使用了 1e-4 的权重衰减和 0.9 的 momentum.

在推理过程中，研究者首先对初始坐标应用边界框回归。为了加快推理速度，研究者首先在所有检测到的边界框上应用 IoU 引导式NMS。然后，使用基于优化的算法进一步改进 100 个有最高分类置信度的边界框。研究者设置步长为 λ=0.5，早停阈值为 Ω1=0.001，定位衰减容限Ω2=−0.01，迭代次数 T=5。

4 实验

研究者在有 80 个类别的 MS-COCO 检测数据集 [17] 上进行了实验。遵照 [1,16]，研究者在 8 万张训练图像和 3.5万张验证图像的并集（trainval35k）上训练了模型，并在包含 5000 张验证图像的集合（minival）上评估了模型。为验证该方法，在 4.1 节和4.2 节，研究者与目标检测器分开而训练了一个独立的 IoU-Net （没有 R-CNN 模块）。IoU-Net 助力的 IoU 引导式 NMS和基于优化的边界框修正被应用在了检测结果上。

4.1 IoU 引导式 NMS

表 1 总结了不同 NMS 方法的表现。尽管 Soft-NMS 能保留更多边界框（其中没有真正的「抑制」），但 IoU 引导式 NMS还能通过改善检测到的边界框的定位来提升结果因此，在高 IoU 指标（比如 AP_90）上，IoU 引导式 NMS 显著优于基准方法。
表1
这里写图片描述

4.2 基于优化的边界精修

研究者提出的基于优化的边界框修正与大多数基于 CNN 的目标检测器 [16,3,10] 都兼容，如表 2 所示。将这种边界框修正方法应用在原来的使用单独 IoU-Net 的流程之后还能通过更准确地定位目标而进一步提升表现。即使是对有三级边界框回归运算的 Cascade R-CNN，这种改进方法能进一步将 AP_90 提升 2.8%，将整体 AP 提升 0.8%。
表2
这里写图片描述

4.3联合训练

IoU-Net 可与目标检测框架一起并行地端到端优化。研究者发现，将 IoU 预测器添加到网络中有助于网络学习更具判别性的特征，这能分别将 ResNet50-FPN 和 ResNet101-FPN 的整体 AP 提升 0.6% 和 0.4%。IoU 引导式 NMS 和边界框修正还能进一步提升表现。研究者使用 ResNet101-FPN 得到了 40.6% 的 AP，相比而言基准为 38.5%，提升了 2.1%。
表3
这里写图片描述
表 4 给出了推理速度，表明 IoU-Net 可在计算成本承受范围之内实现检测水平的提升。
表4

我们主要将表3中AP50的劣质结果归因于IoU估计误差。当边界框具有较低的具有真实性的IoU时，它们在外观上具有较大的变化。可视化如图2（b）所示.
对于具有较低IoU的盒子，IoU估计变得不太准确。这降低了下游再现和抑制的性能。我们凭经验发现，这个问题可以通过诸如在训练期间以较低的IoU采样更多边界框的技术来部分地解决。

结论

本文提出一种用于准确目标定位的全新网络架构 IoU-Net。通过学习预测与对应真实目标的 IoU，IoU-Net 可检测到的边界框的「定位置信度」，实现一种 IoU 引导式 NMS 流程，从而防止定位更准确的边界框被抑制。IoU-Net 很直观，可轻松集成到多种不同的检测模型中，大幅提升定位准确度。MS-COCO 实验结果表明了该方法的有效性和实际应用潜力。

从学术研究的角度，本文指出现代检测流程中存在分类置信度和定位置信度不匹配的问题。更进一步，研究者将边界框修正问题重定义为一个全新的优化问题，并提出优于基于回归方法的解决方案。研究者希望这些新视角可以启迪未来的目标检测工作。

ref
https://blog.csdn.net/ctfabc4425/article/details/81490805