Generalized Focal Loss Learning Qualified and Distributed Bounding Boxes for Dense Object Detection

最新推荐文章于 2023-01-17 22:08:13 发布

不知道叫啥好一点

最新推荐文章于 2023-01-17 22:08:13 发布

阅读量549

点赞数

分类专栏：目标检测文章标签：阅读笔记 GFL QFL DFL

本文链接：https://blog.csdn.net/a_a666/article/details/110880285

版权

目标检测专栏收录该内容

18 篇文章 2 订阅

订阅专栏

Generalized Focal Loss Learning Qualified and Distributed Bounding Boxes for Dense Object Detection阅读笔记

（一）Title

GFL可以应用于任何单级检测器

前言：这篇文章在GFL和DFL上的数学表示干净漂亮，充分展示了数学之美(主要是咱能看懂一些了)，除了合并classfication score和Localization Quality Estimation的工作之外，作者这里对于深度学习中标注的label提出了质疑，同时给出了解决质疑的方法，利用一个通用分布来表示回归的标注。真的是理论很完整的文章。非常推荐大家仔细阅读下

（二）Summary

One-stage检测器将目标检测形式化为dense classification和localization。分类通常通过Focal Loss进行优化，bounding box的定位通常利用狄拉克δ分布进行学习。One-stage检测器的最新趋势是引入an individual prediction branch（单独的预测分支）来帮助分类，从而提升检测性能。

作者在实践过程中发现了两个问题：

在训练和推断阶段，质量评估和分类使用的不一致(即，单独训练但在测试中复合使用)
用于定位的狄拉克δ分布在存在模糊性以及不确定性时存在着不够灵活的特征，而这种模糊性以及不确定性在复杂场景中常常会这样。

为了解决上述的两个问题，作者将quality estimation合并到 class prediction vector 中从而形成一个定位质量和分类的联合表示，此外使用一个vector来表示box位置的任意分布。作者的改进消除了不一致性风险，并准确地描述了真实数据中的灵活分布，但是存在的问题是出现了连续标签，使得Focal Loss无法使用，因此作者将离散形式的Focal Loss 推广到连续形式的Generalized Focal Loss(GFL)上，并能够成功的进行优化。

性能表现：

在 COCO test-dev上，45.0% AP using ResNet-101 backbone，同时在速度上具有较大优势， single-scale AP of 48.2%, at 10 FPS on a single 2080Ti GPU

（三）Research Object

本文主要的3个研究对象是：

localization quality representation(定位质量估计)

我们联合了classification score以及IoU score得到了一个联合的单个变量(文中称之为classification-IoU joint representation),能够进行端到端训练，在推理阶段可以直接使用

消除了classfication score和IoU score之间的不相关性，下图的散点图表示，随机抽样的实例及其预测分数，蓝色表示是之前网络，classification score 和 IoU score 之间相关性较差，作者采用联合分布的形式迫使两者相关，这里我觉得绿点有点夸张，完全等比例关系的话，我们直接使用classification score来做NMS排序不就好了

同时拿负样本训练IoU score分数为0，使得整体的预测更加的可靠，作者提出这对于dense Object detection尤其有利，因为能够得到更加正确的排序，从而保证NMS结果的正确性(我们在inference阶段，使用的预测结果是经过NMS之后的来计算mAP、AR等指标)。

bounding box representation（边界框的表示）

本文中不引入更强的先验，通过直接学习其连续空间上的离散化概率分布来表示boxes location的任意分布(文中称之为General distribution)，从而使得能够获得更可靠和准确的包围盒估计，同时也可以知道bounding box的各种潜在的分布，这里说的分布应该指的是下图中右图的分布（博主个人理解）。

经过上面作者的联合classfication score和IoU score，带来了一个问题，就是我们现在使用连续的IoU label（0~1）作为监督，而类别损失Focal Loss中仅仅支持离散的类别标签{0,1}.因此，作者在这里将FL离散形式进行调整。

Generalized Focal Loss(GFL)
Generalized Focal Loss(GFL).更具体的来说，GFL可以分成Quality Focal Loss(QFL)以及Distribution Focal Loss(DFL)

QFL专注于a sparse set of hard examples，同时在相应的类别上产生它们的连续0~1之间的localization quality estimation；
DFL使网络能够在任意和灵活的分布下,学习bounding boxes在连续位置上的概率值。

（四）Problem Statement

本文提出了两个问题：

由于当前研究关于localization quality estimation在训练和测试阶段不一致，导致的在测试阶段，一些类别置信度较低的目标具有较高的localization quality分数，两者乘积后进行排序，造成一些差样本被NMS挑选了出来作为预测结果，作者提出将localization quality estimation和classification score联合起来。怎么进行联合成为了本文的一个问题。
接着作者指出当前bounding boxes表示几乎全是狄拉克 $\delta$ 分布，作者在前面分析了使用 $\delta$ 分布存在的一系列问题，同时指出高斯分布约束过强的问题，如何得到使用一个灵活、并且接近实际的分类来进行bounding boxes的表示成为本文的第二个问题。

（五）Method

作者的核心工作

5.1 作者基于原始Focal Loss的改动

原始Focal Loss的表现形式为：
$\mathbf{F L}(p)=-\left(1-p_{t}\right)^{\gamma} \log \left(p_{t}\right), p_{t}=\left\{\begin{aligned} p, & \text { when } y=1 \\ 1-p, & \text { when } y=0 \end{aligned}\right.$
从上面可以看出，当我们的类别标签 $y = 1$ 时，我们预测 $y = 1$ 的概率为 $p$ ，当 $p$ 接近1时，我们在交叉熵项上乘的数相比于 $p$ 接近0时，要小得多，也就是在这里更加看重错误分类的样本。

Focal Loss变换到Quality Focal Loss (QFL)

作者提出的IoU score 和 classification score的联合表示classification-IoU，此时的类别标签对于正例来说不再是0和1了，比如我们在Faster RCNN中iou超过多少时，我们标记当前样本为正样本。这里正样本的标签不再是1，而是a soft one-hot label 软化的独热编码。这个软化的值是什么呢？正样本的目标值就是预测bounding boxes和真实Ground Truth之间的IoU。

作者在软化Ground Truth之后，遇到了一个问题，就是原来的Focal Loss 没有办法再进行使用，作者这里的做的两个调整为：

将交叉熵部分展开来写： $-\log \left(p_{t}\right)$ 写成 $\log (1-\sigma)+y \log (\sigma))$
将Focal Loss的 $\left(1-p_{t}\right)^{\gamma}$ 项增加绝对值符号变成 $|y-\sigma|^{\beta}(\beta \geq 0)$ ,这里使用绝对值是为了保证值非负。

最终得到的Quality Focal Loss(QFL)的表现形式为：
$\mathbf{Q F L}(\sigma)=-|y-\sigma|^{\beta}((1-y) \log (1-\sigma)+y \log (\sigma))$
从式中可以看出，当 $\sigma = y$ 时，达到了全局最小值，哎，有了式子之后，我们再给他画张图，解释个一段就更清楚了
在这里插入图片描述
接着我们再变换到Distribution Focal Loss上

NOTES：这段在说明上是基于博主个人理解来解释的，一些符号用的也就博主自己定义的，跟论文中有一些出入

假定我们需要回归的目标值为 $Y$ (比如说就是我们的y轴坐标值)，为一随机变量
我们y轴坐标的Ground Truth有一个标注(人为标注上去的)，这个标注值我们计作 $y$
我们这里将回归目标值 $Y$ 看成一个随机变量的原因是：我们对标注 $y$ 持有质疑态度，我们认为这个标注结果可能不是正确的。
但是目前大多数回归的做法是，将 $Y$ ~ $p (x)$ = $\delta(x-y)$ ,其中 $x$ 表示目标值 $Y$ 的取值，这个是可以变化的，从分布角度来看，表示的是Y的取值范围。
因为 $Y$ ~ $p (x)$ 为一分布，其满足 $\int_{-\infty}^{+\infty}p(x) \mathrm{d} x=\int_{-\infty}^{+\infty} \delta(x-y) \mathrm{d} x=1$ ,

接着作者在文中提出使用积分形式去恢复 $y$ 的叙述我没有理解
这里我是觉得下面的积分式是在对随机变量 $Y$ 取一个期望，也就是我们预测目标的期望 $E [Y]$ ,这里的这个 $p (x)$ 就相当于我们对于真实目标的一个估计。我们当然希望我们定义的随机变量 $Y$ 的某个属性(期望)是我们标注的结果 $y$ 。因此这个地方我的理解是这样的。
$y=E[Y]=\int_{-\infty}^{+\infty} \delta(x-y) x \mathrm{~d} x$
再接着作者提出

由于狄拉克 $\delta$ 分布以及高斯分布并不能够很好地反应真实情况，作者直接提出学习一个通用的分布General distribution $P (x)$

按照上面的思路，即 $y = E [Y]$ ,作者当前假设 $Y$ ~ $P (x)$ ,这里的 $P (x)$ 不同于上文的 $p(x)=\delta(x-y)$ ,我们首先应该研究的是我们的 $E [Y]$ 到底是什么？，作者这里也增加了新的约束，此时我们对目标值Y，需要加上新的约束 $\in [y_{min},y_{max}]其中n \in N^+$ ，这个约束相比于高斯分布和狄拉克分布松了太多了。
$\int_{-\infty}^{+\infty} P(x) x \mathrm{~d} x=\int_{y_{min}}^{y_{max}} P(x) x \mathrm{~d} x$
我们最终肯定是想要这个 $P (x)$ 的，比如说，这个 $P (x)$ 的取最大值的位置 $x$ =x，我们可以看作是真正的真实值为x的可能性比较大。这个x可能和我们的标注 $y$ 相同，也有可能和我们的标注 $y$ 不同。然后我们再利用这个最大概率密度处的x再怎怎做…
因此我们让网络输出这个 $P (x)$ 挺重要的，那么我们怎么让网络输出 $P (x)$ 呢？

作者这里的做法是：我们输出不来所有位于 $\in [y_{min},y_{max}]$ 的 $P (x)$ ，但是我们可以离散化处理，我们将 $y_{min}$ 计作 $y_0$ , $y_{max}$ 计作 $y_n$ ，在中间划分n个长度为 $\Delta$ 的区间，区间的端点为 $\left\{y_{0}, y_{1}, \ldots, y_{i}, y_{i+1}, \ldots, y_{n-1}, y_{n}\right\}$ ，分别输出在这n+1个值上的概率，用这个离散概率分布来代替连续的概率密度函数，同时按照黎曼积分定义上述的 $E [Y]$ 积分式也可以化简成求和形式.
$\sum_{i=1}^{n} P\left(y_{i}\right) y_{i}\Delta$
此外概率密度函数还要满足积分和为1.得到下式：
$\sum_{i=1}^{n} P\left(y_{i}\right)\Delta=1$
这里的下标我做了些调整，从 $i = 1$ 开始，这里还需要注意的是P表示的是概率密度，而不是离散的概率，我们令 $P(x)\Delta$ ,再将上式中的 $P(x)\Delta$ 用 $Q (x)$ 代替，得到：
$\sum_{i=1}^{n} Q\left(y_{i}\right) y_{i}$
以及
$\sum_{i=1}^{n} Q\left(y_{i}\right)=1$
由于目前 $Q (x)$ 表示离散的概率值，取值范围为[0,1]，因此我们可以直接用Sigmoid函数 $\mathcal{S}(\cdot)$ 来进行估计。

作者这里使用了n+1个输出经过sigmoid来模拟 $P(y_0)...P(y_n)$ .按照机器学习的思路，我们这里需要给这n+1个输出提供真实值。我们可以提供下面所示的任意形状的值(注意这里应该是离散的，但是论文中没有离散的图，我们就用连续的看看)
在这里插入图片描述
从上图中，有一个竖线，这个竖线表示的位置，我们可以认为就是我们的标注 $y$ ,我们从上图(3)中可以看出，这种分布，能够给出一个比较确定的结果，就这个分布比较自信，我们就喜欢这种自信的分布，同时我们还希望我们的自信不是盲目自信，我们最大值应该离竖线很近，也就是我们最大值对应的横轴坐标非常接近标注 $y$ ,我们怎么实现令分布最大值最接近 $y$ 呢？
作者这里提出让和 $y$ 临近的两个点 $y_i$ 以及 $y_{i+1}$ 的概率增加(这里作者使用的方法非常巧妙)
$\mathbf{D F L}\left(\mathcal{S}_{i}, \mathcal{S}_{i+1}\right)=-\left(\left(y_{i+1}-y\right) \log \left(\mathcal{S}_{i}\right)+\left(y-y_{i}\right) \log \left(\mathcal{S}_{i+1}\right)\right) = -\left(\left(y_{i+1}-y\right) \log \left(Q_{i}\right)+\left(y-y_{i}\right) \log \left(Q_{i+1}\right)\right)$
从上式我们可以看出，当 $y_{i+1}$ 和 $y$ 非常接近时，损失值会减小，并且 $Q_i$ 和 $Q_{i+1}$ 值较大时，损失值也较小。从而达到作者上述描述的情况。
进一步深入研究当前的损失函数，我们需要看看DFL取最小值时，对应的网络两个输出节点 $Q_i$ 以及 $Q_{i+1}$ 的值是多少，(这里假定 $y_i,y_{i+1}$ 以及标注 $y$ 为已知量。)但是，两个变量的最小值根本没法确定，我们可以让 $Q_i$ 和 $Q_{i+1}$ 输出都为1，那么这样的话，这个函数的最小值就是0了。
作者这里在补充材料中给出了第二个约束条件 $Q_i+Q_{i+1} = 1$ .在这两个约束条件的作用下，可以得到DFL取最小值时对应的 $Q_i$ 和 $Q_{i+1}$ 的值分别是什么？
$Q_{i}=\frac{y_{i+1}-y}{y_{i+1}-y_{i}}, \mathcal{Q}_{i+1}=\frac{y-y_{i}}{y_{i+1}-y_{i}}$
此时我们再来看 $\sum_{i=1}^{n} Q\left(y_{i}\right) y_{i} = Q_iy_i + Q_{i+1}y_{i+1} = y$ 和我们使用 $\Delta$ 分布的情况相同。数学简直了！真的很完美。

5.2 统一DFL和QFL到Generalized Focal Loss(GFL)

整理DFL的形式：我们将上面的 $y_i$ 重新计作 $y_l$ , $y_{i+1}$ 重新计作 $y_r$ ,将 $Q_i$ 计作 $p_{y_l}$ ,将 $Q_{i+1}$ 计作 $p_{y_r}$ ,我们同时希望我们网络输出 $Q_i$ ， $Q_{i+1}$ 要满足我们对于期望的要求，即 $Q_iy_i + Q_{i+1}y_{i+1} \rightarrow y$ ，我们将这项作为调制因子乘到DFL上，得到了最终的下式。
$\mathbf{G F L}\left(p_{y_{l}}, p_{y_{r}}\right)=-\left|y-\left(y_{l} p_{y_{l}}+y_{r} p_{y_{r}}\right)\right|^{\beta}\left(\left(y_{r}-y\right) \log \left(p_{y_{l}}\right)+\left(y-y_{l}\right) \log \left(p_{y_{r}}\right)\right)$
从上面分析DFL的最小值，此处对于GFL同样在 $p_{y_{l}}^{*}=\frac{y_{r}-y}{y_{r}-y_{l}}, p_{y_{r}}^{*}=\frac{y-y_{l}}{y_{r}-y_{l}}$ 这两个位置取得最小值，证明过程(这部分我偷懒了没有看)在补充材料中，同时我们网络估计的输出为 $y$ 也就是真实标签。
关于GFL是DFL和QFL的通用形式可以见补充材料内容(又偷了个懒)。
GFL可以应用于任何单级检测器，在回归时，原来输出1个目标，现在输出(n+1)个目标，这个计算成本很小

5.3 综合上述的DFL和GFL，本文的损失函数为：

$\mathcal{L}=\frac{1}{N_{\text {pos}}} \sum_{z} \mathcal{L}_{\mathcal{Q}}+\frac{1}{N_{\text {pos}}} \sum_{z} \mathbf{1}_{\left\{c_{z}^{*}>0\right\}}\left(\lambda_{0} \mathcal{L}_{\mathcal{B}}+\lambda_{1} \mathcal{L}_{\mathcal{D}}\right)$
其中 $\mathcal{L}_{\mathcal{Q}}$ 表示QFL， $\mathcal{L}_{\mathcal{D}}$ 表示DFL。 $\mathcal{L}_{\mathcal{B}}$ 表示GIoU Loss。 $N_{pos}$ 表示正样本数。我们也在训练中利用Quality Score来加权 $\mathcal{L}_{\mathcal{D}}$ 和 $\mathcal{L}_{\mathcal{B}}$

（六）Experiment

6.1 实验中的细节设置

训练数据使用：trainval35k (115K图像)
验证数据：minival (5K图像)作为Ablation Study的交融实验。
最终结果我们在test-dev(20K图像)进行验证，可从评估服务器获得。
使用mmdetection中的超参数
以ResNet-50作为backbone，
没有使用多尺度训练。

6.2 QFL作用的研究

6.2.1 我们联合QFL和单独的Quality Branch之间的差异

在这里插入图片描述

两种表示定位质量的方式：IoU以及Centerness，并且作者的实验证明IoU的性能始终优于Centerness。使用联合的方式QFL要优于单独使用。

6.2.2 我们提出的QFL在one-stage检测器中的作用

在这里插入图片描述
加上我们的QFL之后，性能有了较大的提升。

6.2.3 QFL中的 $\beta$ 超参数

在这里插入图片描述
从上述的实验中，用QFL训练的联合表示由于其更可靠的质量估计而有利于检测，并且根据其定义在分类和质量得分之间产生最强的相关性。

6.3 DFL的有效性

在这里插入图片描述
我们比较了不同数据表示对包围盒回归的有效性。我们发现，通用分布实现了卓越或至少可比较的结果，而DFL可以进一步提高其性能。
$n$ 值对性能的影响

$\Delta$ 值对性能的影响

6.4 DFL和QFL结合在帧率、性能上的表现

在这里插入图片描述
性能提升，但是在帧率上变化不大，计算开销可以忽略不计。

6.5 和State-of-art网络的比较

在这里插入图片描述

（七）Conclusion

我们提出了Generalized Focal Loss(GFL)，它将原来的Focal Loss从离散形式推广到连续形式。GFL可以分为Quality Focal Loss(QFL)和Distribution Focal Loss（DFL）

QFL鼓励学习更好的classification score和localization Quality estimation的联合表示
DFL通过将它们的位置建模为Generalized Distribution来提供更丰富和更精确的边界框估计。

大量实验验证了GFL的有效性。我们希望GFL可以作为a baseline.

（八）Notes

1. 当前Object Detection的发展状况

目前dense detectors（密集场景的检测）成为当前目标检测的一个趋势，在bounding boxes representation 以及 localization quality estimation上都取得了不错的研究。

通常bounding box的表示被建模成一个狄拉克Delta分布，
在Localization quality estimation上，在FCOS中预测了一个额外的localization quality(IoU scores或者centerness score)，结合预测的类别置信度(通常是两者相乘得到一个新的score)，利用这个新的score去对NMS进行排序

虽然在上述的两个问题上取得了较为不错的性能表现，但是依旧存在着不少的问题，作者在实验过程中，发现了一些问题：

在使用localization quality estimation and classification score时，出现了训练和推理阶段不一致的情况

这个问题的具体表现在：
(1) 如下图所示，localization quality estimation 和 classification score在训练的时候是独立的，但是到了预测阶段通过相乘结合了起来。

(2) 由于在训练阶段，localization quality estimation仅仅分配给正样本，正样本的localization quality estimation(IoU score)可能训练的很好，但是负样本就没有办法控制。如下图所示，绿色的框表示的是背景(负样本)，可是输出的IoU score却非常大，使得在推理阶段，虽然其类别置信度比较小，但是IoU score大，导致乘积变大，从而使得一些背景在NMS排序时跑到了前面。

Inflexible representation of bounding boxes

我们当前广泛使用的bounding box表示其实可以看成关于目标box(Ground Truth)坐标的 $\delta$ 分布，但是我们在标注时，由于物体的边界不是很清楚地表示出来(由于遮挡、阴影以及模糊导致的)，没有一个准确的标准说，应该怎样去标注bounding box，导致了我们标注的Ground Truth可能是不可信的。

因此，最近的一些工作，将bounding boxes建模为高斯分布，但是过于简单了，真实分布可以是任意的，同时可以更加灵活。

2. 当前localization quality estimation的研究情况

Classfication score 独立于localization quality，也就是use a separate branch 来进行localization quality estimation，如Fitness NMS、IoU-Net、MSR-CNN、FCOS以及IoU-aware，这种方式造成的训练和推理不一致的问题，我们在前面已经叙述过了
assign different weights in classification loss based on their localization qualities，用于平衡类别分数和定位准确率之间的关系，但是并没有改变最佳的损失目标

3. 当前bounding boxes 表示的研究情况

狄拉克 $\delta$ 分布广泛应用，最近也出现了高斯假设，但是作者指出高斯假设的约束过强，不能够反应真实数据的分布，因此作者这里进一步放松假设，仅仅限制label的一个取值范围，使用通用分布来描述回归目标。

不知道叫啥好一点

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Generalized Focal Loss Learning Qualified and Distributed Bounding Boxes for Dense Object Detection

（一）Title（二）SummaryOne-stage检测器将目标检测形式化为dense classification和localization。分类通常通过Focal Loss进行优化，bounding box的定位通常利用狄拉克δ分布进行学习。One-stage检测器的最新趋势是引入an individual prediction branch（单独的预测分支）来帮助分类，从而提升检测性能。作者在实践过程中发现了两个问题：在训练和推断阶段，质量评估和分类使用的不一致(即，单独训练但在测试中复
复制链接

扫一扫