Generalized Focal Loss V2论文解读

最新推荐文章于 2023-07-17 16:12:53 发布

ronghuaiyang

最新推荐文章于 2023-07-17 16:12:53 发布

阅读量940

点赞数 3

文章标签：机器学习人工智能深度学习 python 计算机视觉

本文链接：https://blog.csdn.net/u011984148/article/details/111189123

版权

点击上方“AI公园”，关注公众号，选择加“星标“或“置顶”

导读

GFLV1之后很快又有了GFLV2，这次的思路是让位置质量的预测用上回归分支的信息，同时通过分布的平坦性来表示位置的质量，感觉确实要比V1中对分布的使用方式要优雅。

代码：https://github.com/implus/GFocalV2

论文：https://arxiv.org/abs/2011.12885

摘要：定位质量的预测对于物体检测是非常重要的，可以在做nms的提供准确的框的置信度，提高检测器的performance。一般来说，在做预测的时候，使用的是分类或者回归的共享特征，这篇文章中，提供了一种全新的角度来进行定位质量的预测，不是基于共享特征，而是基于学习到的4个包围框参数的分布，包围框的分布在GFLV1中有介绍。这样可以让包围框分布的统计特性和真实的位置质量高度相关，具体来说，如果分布中有一个非常高的峰值，这个往往就是高质量的位置，反之亦然。因此，基于GFLV1，我们开发了一个轻量级的分布导向的质量预测器，Distribution-Guided Quality Predictor(DGQP) ，用来得到可信的位置质量预测。

1. 介绍

GFLV1中用到了包围框的分布，为每一条边都预测一个离散的分布如下图（a），我们发现，这分布的统计特性和物体实际位置的质量是非常相关的。如下图（b）。具体来说，如下图（c）和（d），分布的情况可以很好的反映框的质量，分布越平，预测的框的质量越差，下图(c)中的bottom的分布相对较平，而实际的预测可以看到确实也和实际位置有较大的偏差，而其他的3个预测分布都是有一个很高的尖峰值，而且实际来看预测的位置也是很准确的。因此，可以考虑通过引导这个分布变得尖锐来得到更加准确的预测。

总来说，这篇文章的贡献如下：

首次将框的分布和预测质量联系到一起，并在端到端的框架中进行训练。
提出了GFLV2，可以无cost的放到大部分的物体检测器中，并得到2个点的提升，而且不需要牺牲训练推理速度。
在COCO数据集上达到53.3的AP。

2. 方法

2.1 GFLV1

Classification-IoU Representation

这个表征是GFLV1中关键部分，用来去掉位置质量预测和类别得分之间的训练和推理的不一致性，具体来说，对于目标的类别，GFLV1使用分类分支来得到这个联合表示，记为：J=[J1,J2,...,Jm]，满足：

其中，表示预测框和匹配到的gt框之间的IoU。

General Distribution of Bounding Box Representation

在GFLV1中，包围框的预测并不是直接预测框的位置，而是通过预测一个分布来得到预测框的位置，具体来说，可以这样表示：

相比于之前的狄拉克分布，使用这种分布可以很好的反映出预测的质量，而这也是这篇文章的基石。

2.2 GFLV1

Decomposed Classification-IoU Representation

尽管Classification-IoU 联合表征可以解决训练和推理时候对分类得分和位置质量得分使用的不一致问题，但是，只使用分类分支来预测这个联合表示仍然是有局限性，因此，我们利用来自分类（C）和回归（I）分支的信息对这个表示进行了分解：

其中，C=[C1,C2,...,Cm]，C∈[0,1]表示m个类别的分类表示，I∈[0,1]是一个标量，表示IoU。

尽管J被分解成了2个部分，但是在训练和推理的时候，我们还是使用最终的联合表示的形式，所以，我们还是可以和GFLV1一样，避免训练和推理的不一致性。我们使用来自分类分支的C和来自回归分支的I结合起来，得到J，然后，J使用QFL进行监督学习，在推理的时候，直接使用J进行NMS。

Distribution-Guided Quality Predictor

DGQP是GFLV2的关键部分，我们把得到的分布P再送到一个小的子网络中，见图3，得到预测IoU标量I，然后再和C相乘，得到J。在做回归的时候，和GFLV1一样，我们回归的是当前的位置到4条边的距离，我们记做{l,r,t,b}。

从之前的分析我们了解到，学习到的这个分布和最终得到的包围框的质量是高度相关的，可以使用分布的统计量来反映出这个分布的平坦性，因此，这个统计量就和框的质量也高度相关，当我们在训练的时候使用这个统计量时，训练会更容易，质量的预测也会更好。在实践中，我们使用topk的值和这k个值的均值拼接起来作为这个统计量：