Generalized Focal Loss: Learning Qualified and Distributed BBoxes for Dense Object Detection论文翻译阅读

最新推荐文章于 2023-12-07 12:11:09 发布

深度检测

最新推荐文章于 2023-12-07 12:11:09 发布

阅读量1k

点赞数 4

分类专栏：目标检测

本文链接：https://blog.csdn.net/chrisitian666/article/details/107579005

版权

Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection论文翻译阅读

论文下载地址：点击此链接跳转.
这是博主自己在github整理的目标检测方向论文的合集，应该算比较全，目前已更新至2020ECCV，即将更新：2020IJCAI合集，欢迎下载…

部分内容参考于：大白话 Generalized Focal Loss。这是GFL作者写的一个简要的解析，简单易懂，推荐阅读。

文章部分内容可能表达得不是太准确，若有错误欢迎指出。

一、Abstract

One-stage目标检测器通过密集分类和定位来进行目标检测，通常在分类中使用的是Focal loss，而边界框的回归定位通常是在狄拉克δ分布下学习的。one-stage检测器的一个发展趋势是引入一条预测分支来评估回归框的质量，有效改善了检测性能。本文主要是针对边界框质量估计、分类、定位这三个基本要素的表示做了研究。在现有的实践中发现了两个问题: (1) 质量估计和在训练和推理时使用不一致 (2) 存在模糊性和不确定性的复杂场景中，用于定位的Dirac delta分布是不灵活的。为解决这些问题，作者设计了新的表示，将质量估计合并到分类预测向量中，形成定位质量和分类的联合表示，并用一个向量来表示bbox位置的任意分布。这种改进的表示方法消除了训练和推理时的不一致，并准确地描述了真实数据的弹性分布，但其标签是连续的，超出了Focal loss的范围(离散标签)。因此作者提出了Generalized Focal Loss(GFL)，将Focal loss从离散版本推广到连续版本。在coco test-dev上，以resnet101达到了45.0% ap。最优可达48.2%。

二、Introduction

       近年来，密集检测器逐渐开始变得火热，对bbox表示及其定位质量估计也取得了一定进展。过去几年中，边界框表示通常是以狄拉克delta分布进行建模，从FCOS开始加入了预测一个额外的定位质量(如IoU评分或centerness评分)，当将质量估计与分类置信度相结合后(通常是相乘)作为inference时NMS分数排序的依据，会带来检测精度的提高。但我们发现这种方法存在以下问题:
（1）训练和推理对定位质量估计和分类分数的使用不一致:
        ① 在密集检测器中，定位质量估计和分类分数通常是在训练时独立训练，但推理时又是乘在一起结合使用，
        ② 定位质量估计的监督只针对于正样本，但在使用Focal loss时，分类分支会使少量正样本与大量负样本一起训练，在做NMS分数排序时，所有样本会将分类分数和质量预测分数进行相乘后再用于排序，对于大量负样本，它们的质量预测并没有定义，所以可能会存在一个分类分数较低的负样本，由于预测了一个不可信的高质量分数，导致其相乘后排在了获得了较低预测质量分数的正样本前面。
         以上两个因素会导致训练和测试之间的差距，可能会降低检测性能。
在这里插入图片描述
（2）不灵活的边界框表示：
       现在广泛使用的边界框表示都是建模的狄拉克δ分布，没有考虑到数据集存在的模糊性和不确定性。最近一些工作使用高斯分布来建模，但它对于捕捉边界框位置的真实分布来说过于简单，因为真实分布可以更加任意灵活，并不像高斯分布总是对称的。
       对于第一个问题，作者设计了新的定位质量表示方法，将其与分类分数合并为一个统一的分类向量表示，分类向量在GT类别索引上的值表示相应的