Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection论文翻译阅读
论文下载地址:点击此链接跳转.
这是博主自己在github整理的目标检测方向论文的合集,应该算比较全,目前已更新至2020ECCV,即将更新:2020IJCAI合集,欢迎下载…
部分内容参考于:大白话 Generalized Focal Loss。这是GFL作者写的一个简要的解析,简单易懂,推荐阅读。
文章部分内容可能表达得不是太准确,若有错误欢迎指出。
一、Abstract
One-stage目标检测器通过密集分类和定位来进行目标检测,通常在分类中使用的是Focal loss,而边界框的回归定位通常是在狄拉克δ分布下学习的。one-stage检测器的一个发展趋势是引入一条预测分支来评估回归框的质量,有效改善了检测性能。本文主要是针对边界框质量估计、分类、定位这三个基本要素的表示做了研究。在现有的实践中发现了两个问题: (1) 质量估计和在训练和推理时使用不一致 (2) 存在模糊性和不确定性的复杂场景中,用于定位的Dirac delta分布是不灵活的。为解决这些问题,作者设计了新的表示,将质量估计合并到分类预测向量中,形成定位质量和分类的联合表示,并用一个向量来表示bbox位置的任意分布。这种改进的表示方法消除了训练和推理时的不一致,并准确地描述了真实数据的弹性分布,但其标签是连续的,超出了Focal loss的范围(离散标签)。因此作者提出了Generalized Focal Loss(GFL),将Focal loss从离散版本推广到连续版本。在coco test-dev上,以resnet101达到了45.0% ap。最优可达48.2%。
二、Introduction
近年来,密集检测器逐渐开始变得火热,对bbox表示及其定位质量估计也取得了一定进展。过去几年中,边界框表示通常是以狄拉克delta分布进行建模,从FCOS开始加入了预测一个额外的定位质量(如IoU评分或centerness评分),当将质量估计与分类置信度相结合后(通常是相乘)作为inference时NMS分数排序的依据,会带来检测精度的提高。但我们发现这种方法存在以下问题:
(1)训练和推理对定位质量估计和分类分数的使用不一致:
① 在密集检测器中,定位质量估计和分类分数通常是在训练时独立训练,但推理时又是乘在一起结合使用,
② 定位质量估计的监督只针对于正样本,但在使用Focal loss时,分类分支会使少量正样本与大量负样本一起训练,在做NMS分数排序时,所有样本会将分类分数和质量预测分数进行相乘后再用于排序,对于大量负样本,它们的质量预测并没有定义,所以可能会存在一个分类分数较低的负样本,由于预测了一个不可信的高质量分数,导致其相乘后排在了获得了较低预测质量分数的正样本前面。
以上两个因素会导致训练和测试之间的差距,可能会降低检测性能。
(2)不灵活的边界框表示:
现在广泛使用的边界框表示都是建模的狄拉克δ分布,没有考虑到数据集存在的模糊性和不确定性。最近一些工作使用高斯分布来建模,但它对于捕捉边界框位置的真实分布来说过于简单,因为真实分布可以更加任意灵活,并不像高斯分布总是对称的。
对于第一个问题,作者设计了新的定位质量表示方法,将其与分类分数合并为一个统一的分类向量表示,分类向量在GT类别索引上的值表示相应的