Generalized Focal Loss V2: Learning Reliable Localization Quality Estimationfor Dense Object Detection论文翻译
论文地址:Generalized Focal Loss V2: Learning Reliable Localization Quality Estimationfor Dense Object Detection
代码地址:https://github.com/implus/GFocalV2
作者解读:https://zhuanlan.zhihu.com/p/313684358
摘要
定位质量估计Localization Quality Estimation(LQE)是近年来密集目标检测器发展的关键和流行,它可以提供精确的排序分数,有利于非最大抑制处理和提高检测性能。作为一种常见的做法,大多数现有的方法都是通过与目标分类或边界框回归共享的常规卷积特征来预测LQE得分。在本文中,我们探索了一种全新的、不同于以往的基于边界框的四个参数的分布来预测LQE。在GFLV1中引入边界框分布作为一般分布,很好地描述了预测边界框的不确定性。这样的属性使得边框的分布统计量与实际的定位质量高度相关。具体来说,峰值较大的边框分布通常对应较高的定位质量,反之亦然。通过利用分布统计信息和真实定位质量之间的密切关系,我们开发了一个相当轻量级的分布导向的质量预测器Distribution-Guided Quality Predictor(DGQP),用于基于GFLV1的可靠LQE,从而产生GFLV2。据我们所知,这是第一次尝试在目标检测中使用高度相关的统计表示来促进LQE。大量的实验证明了该方法的有效性。值得注意的是,GFLV2 (ResNet101)在14.6 FPS时达到46.2 AP,在COCO test-dev上以绝对2.6 AP超过了之前最先进的ATSS基线(14.6 FPS时的43.6 AP),同时不牺牲训练和推理的效率。
1.介绍
稠密目标检测器[28,23,42,33,18,27]直接通过特征图预测像素级的对象类别和边界框,由于其优雅而有效的框架而越来越受欢迎。该框架基础上的关键技术之一是定位质量评估(LQE)。在更好的LQE的帮助下,高质量的边界框往往比低质量的边界框得分更高,大大降低了非最大抑制(Non-Maximum suppression, NMS)处理中出现错误抑制的风险。
许多前人的研究[28、29、30、33、40、36、14、18、39、43、27]都对LQE进行了探索。例如YOLO家族[28,29,30]首先采用Objectness来描述定位质量,将其定义为预测框和ground-truth框之间的intersec- over- union (IoU)。随后,我们进一步探索并证明IoU在IoU- net[13]、IoU-aware[36]、PAA[14]、GFLV1[18]和VFNet[39]中是有效的。最近,FCOS[33]和ATSS[40]引入了Centerness中心度(距离目标中心的距离)来抑制低质量的检测结果。一般来说,上述方法都有一个共同的特点,即都是基于单纯的卷积特征,例如点、边界或区域的特征(图2 (a)-(g))来估计定位质量。
与以往的工作不同,本文探索了一个全新的视角,直接利用边界框分布的统计,而不是单纯的卷积特征来进行LQE(图2)。这里的边界框分布是GFLV1[18]的一般分布,学习每个预测边缘的离散概率分布(图1 (a))来描述边界框回归的不确定性。有趣的是,我们观察到一般的统计分布与其真正的定位质量有很强的相关性,如图1中所示(b)。在图1 ©和(d)中,边界框分布的形状(平整度)可以清楚地反映预测结果的定位质量,分布越尖锐,预测的边界框越准确,反之亦然。 因此,它可能更容易和非常有效地通过分布信息的引导来更好的LQE,因为输入(边框分布统计)和输出(LQE分数)是高度相关的。
受分布统计与LQE得分之间的强相关性的启发,我们提出了一个只有几十个(例如64个)隐藏单元的非常轻量级的子网络,在这些分布统计的基础上产生可靠的LQE分数,显著提高了检测性能。重要的是,它在实际应用中所带来的额外计算量可以忽略不计,而且几乎不影响基本目标检测器的训练/推理速度。在本文中,我们将这种轻量级子网络称为分布导向的质量预测器(DGQP),因为它依赖于分布统计的指导来进行质量预测。
通过引入轻量级的DGQP,通过统计边界框分布预测可靠的LQE分数,我们开发了一种基于GFLV1框架的新型密集物体检测器,即GFLV2。为了验证GFLV2的有效性,我们在具有挑战性的基准COCO[22]上进行了广泛的实验。值得注意的是,基于ResNet-101 [11]