【NIPS 2020】Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for...译读笔记

论文名称

Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection

术语翻译

localization quality:定位质量。

摘要

一阶检测器基本上讲目标检测表述为密集特征图的分类和定位(即:限位框回归)。分类常常通过 Focal Loss优化,而检测框位置通常在学习 Dirac delta distribution(指目标位置的回归分布)。最近对于一阶检测器的研究趋势是引入一个individual的预测分支来估计定位质量,其中预测质量可以辅助分类任务来提升检测的性能。本文深入研究了上述三个基本要素的表示,这三种要素分别为:质量估计、分类和定位。在现有实践中发现了两个问题,包括:(1)训练和推理时对质量估计和分类置信度的使用是不一致的(即:两者单独训练但是在测试时合成使用);(2) Dirac delta distribution在存在ambiguity和uncertainty时是inflexible的,而上述情况在复杂场景下会常常出现。为了解决这些问题,本文对这些元素设计了新的表示方法。具体来说,本文将质量估计合并到了类别预测向量中,形成了一个定位质量和类别置信度的联合表示,并用一个向量来表示框位置的任意分布。改进的表示消除了不一致的风险并准确地描述了真实数据中flexible的分布,但是这些表示包含了continuous的标签,这超出了FocalLoss的范围。本文于是提出了 Generalized Focal Loss(GFL),将FocalLoss从其离散形式泛化到连续形式从而正确进行优化。在COCO-test-dev上,GFL使用ResNet-101的主干实现45.0%-AP,在主干和训练设置相同的条件下超越了SOTA的SAPD(43.5%)和ATSS(43.6%),且推理速度更快或相当。值得注意的是,本文最好的模型能实现单模单尺度48.2%的AP,在单2080Ti的GPU上实现10FPS。代码和预训练模型位于[GFocal]

1 引言

最近,密集检测器逐渐引领了目标检测的趋势,同时对边界框及其定位质量估计的representation的关注也促进了令人鼓舞的进步。具体来说,边界框representation被建模为一种简单的 Dirac delta distribution[10_Box_Regression_with_Uncertainty, 18_FocalLoss, 32_FreeAnchor, 26_FCOS, 31_ATSS],在过去几年中被广泛使用。FCOS[26_FCOS]提出预测一个额外的定位置信度(例如:IoU分数[29_IoU_Aware_Detector ]或者质心分数[26_FCOS]),这样在合并(通常是相乘)质量估计与类别置信度作为最终分数[12_IoUNet, 11_MSRCNN, 26_FCOS, 29_IoU_Aware_Detector, 35_IoU-uniform_R-CNN]用于NMS排序时,会带来检测精度的一致提升。尽管这些方法取得了成功,本文在现有实践中观察到以下问题:
在训练和推理阶段对定位置信度和类别分数使用的不一致:(1)在近期的密集检测器中,定位置信度和类别分数常常会独立进行训练但在推理阶段会合并使用(例如:相乘)[26_FCOS, 29_IoU_Aware_Detector](如图1(a));
在这里插入图片描述
(2)目前定位置信度的监督只会被分配到正样本[12_IoUNet, 11_MSRCNN, 26_FCOS, 29_IoU_Aware_Detector, 35_IoU-uniform_R-CNN],这种方式是不可靠的因为负样本也可能有机会获得无法控制的较高质量的预测(如图2(a))。
在这里插入图片描述
这两个因素导致了训练和测试时的不一致,并且可能会降低检测的性能,例如:在NMS时,随机出现的高置信分数的负样本可能会排在置信度较低的正样本前面。
不灵活的边界框表示:广泛使用的边界框表示可以看作目标框坐标的 Dirac delta distribution[7_FastRCNN
, 23_FasterRCNN, 8_MaskRCNN, 1_CascadeRCNN, 18_FocalLoss, 26_FCOS, 13_FoveaBox, 31_ATSS]。然而,该表示没有考虑到数据集中的模糊性和不确定性(参见图3中图形不够清楚的边界)。
在这里插入图片描述
尽管近期的一些工作[10_Box_Regression_with_Uncertainty, 4_GaussianYOLOv3]使用高斯分布来建模目标框,该方法较为简单难以表征边界框位置的真实分布。实际上,真实分布会更加不确定和灵活[10_Box_Regression_with_Uncertainty],而不需要像高斯函数那样的对称性。
为了解决以上问题,本文设计了对边界框的创新表示及其定位置信度。对于定位置信度表示,本文提出了将其与类别分数合并为一种统一的表示:即一个类别向量,它在真实标签索引位置的值表示相应的定位置信度(在本文中一般是预测框与对应真值框间的IoU分数)。通过这种方式,本文将类别分数和IoU分数统一为单个联合的变量(记为“classification-IoU joint representation”),它可以以端到端的方式训练,同时在推理过程中直接使用(如图1(b)所示)。
在这里插入图片描述
因此,它可以消除训练和测试间的不一致(如图1(b)所示)并在定位置信度和分类之间产生更强的相关性(如图2(b)所示)。
在这里插入图片描述
此外,负样本会以0置信分数来进行监督,因此整个置信度预测会变得更加真实可靠。这对于密集检测器来说十分有益,因为它们会对整个图像上规律采样的所有候选框进行排序。对于边界框表示,本文提出表征框位置的任意分布(本文中记为“General distribution”),直接学习其连续空间上的离散概率分布,而不引入其它更强的先验(例如:Gaussian[10_Box_Regression_with_Uncertainty, 4_GaussianYOLOv3])。因此,本文能获得更加可靠和准确的边界框估计,同时该方法可以感知边界框不同形式的潜在分布(请参见图3中的预测分布以及Supplementary-Materials)。
这种改进的表示方法会给优化过程带来挑战。传统上,对于密集检测器,分类分支会使用Focal-Loss(FL)[18_FocalLoss]来优化。FL能够很好地处理类别不平衡问题,通过对标准交叉熵损失进行变形。然而,对于所提出的 classification-IoU joint representation,除了仍然存在的不平衡风险之外,本文还面临使用连续的IoU标签(0~1)作为监督的新问题,因为原始的FL目前仅支持离散{0,1}的类别标签。本文将FL从{0,1}离散版本扩展到连续的变体,称作 Generalized Focal Loss(GFL)。不同于FL,GFL考虑了一种更一般的情况,即全局优化解可以面向任意期望的连续值,而不用是离散值。更具体地说,本文提出的GFL可以特定为 Quality Focal Loss(QFL)和 Distribution Focal Loss(DFL),从而分别优化两种改进的表示:QFL关注于一组稀疏的难样例并同时在对应类别上产生其连续的  0 ∼ 1 0 \sim1 01质量估计;DFL使网络可以在任意灵活的分布下,快速地聚焦于学习目标边界框连续位置周围值的概率。
本文展示了GFL的三个优势:(1)当单阶段检测器使用额外的质量估计进行增强时,它弥补了其训练和测试的差异,获得了一种对类别和定位质量的简单、联合和有效的表示;(2)它较好地建模了边界框不确定的潜在分布,并能提供更多信息丰富和准确的检测框位置;(3)在不引入额外开销的情况下,一阶检测器的性能也能相应提高。在COCO-test-dev上,GFL在使用ResNet101主干的情况下实现了45.0%AP,超越了先进的SAPD(43.5%)和ATSS。本文中最好的模型实现了单模单尺度48.2%AP,同时可在单个2080TiGPU上以10FPS运行。

2 相关工作

定位质量表示:如 Fitness NMS[27_FitnessNMS]、IoU-Net[12_IoUNet]、MS
R-CNN[11_MSRCNN]、FCOS[26_FCOS]和IoU-aware[29_IoU_Aware_Detector]等现有工作使用一个单独的分支以IoU或者中心度分数的形式来进行定位质量估计。如第1章提到的那样,这种单独的表示形式会引起训练和测试时的不一致以及定位质量预测的不可靠。除了引入一个额外分支,PISA[2_PISA]和IoU-balance[28_IoU_Balance]会基于定位质量在分类损失中分配不同的权重,从而增强类别分数和位置质量之间的联系。然而,权重策略的好处是隐含且有限的,因为它没有改变分类损失函数的最优解。
边界框表示:近些年,Dirac delta distribution[7_FastRCNN, 23_FasterRCNN, 8_MaskRCNN, 1_CascadeRCNN, 18_FocalLoss, 26_FCOS, 13_FoveaBox, 31_ATSS]是边界框表示的主流。近期,通过引入一种预测的方差,高斯分布假设[10_Box_Regression_with_Uncertainty, 4_GaussianYOLOv3]被用来学习边界框的不确定性。遗憾的是,现有的表示方法要么有些刻板,要么过于简化,无法反映真实数据中复杂的潜在分布。本文进一步放宽了现有假设,并直接学习更加灵活多变的边界框的一般性分布,同时其信息更加丰富、预测更为准确。

3 方法

本章首先回顾了原始的 Focal Loss[18_FocalLoss](FL)在一阶检测器中用于学习密集类别分数。接着,本文介绍了对定位质量估计和边界框的改进表示方法,它们可以分别使用提出的 Quality Focal Loss(QFL)和 Distribution Focal Loss(DFL)来很好地进行优化。最后,本文将QFL和DFL的公式归纳为一个整体形式称为 Generalized Focal Loss(GFL),作为FL灵活的扩展,以便于将来进一步的推广和通用性的理解。
Focal Loss(FL):原始的FL[18_FocalLoss]的提出是用于解决一阶段目标检测场景中,训练期间常常存在的前景和背景类的极端不平衡。FL的经典形式如下(为简单起见,本文忽略了原始论文[18_FocalLoss]中的 α t \alpha_t αt):

其中 y ∈ { 0 , 1 } y \in \{0,1\} y{0,1}指真实类别而 p ∈ [ 0 , 1 ] p\in[0,1] p[0,1]表示标签 y = 1 y=1 y=1的类的估计概率。具体来说,FL 由标准交叉熵部分 − log ⁡ ( p t ) -\log \left(p_{t}\right) log(pt)和动态尺度因子部分 ( 1 − p t ) γ \left(1-p_{t}\right)^{\gamma} (1pt)γ组成,其中尺度因子 ( 1 − p t ) γ \left(1-p_{t}\right)^{\gamma} (1pt)γ在训练时会自动地降低简单样本的权重而使模型快速地聚焦于困难样本的学习。
Quality Focal Loss(QFL):为了解决上述的训练阶段和测试阶段之间的不一致问题,本文提出了定位质量(即IoU分数)和类别分数的联合表示(简称为“classification-IoU”),这种表示的监督软化了标准的one-hot类别标签,并在相应类别上产生一个可能的浮点数目标值 y ∈ [ 0 , 1 ] y\in[0,1] y[0,1](参见图4中的类别分支)。
在这里插入图片描述
具体来说, y = 0 y=0 y=0表示质量得分为0的负样本,而 0 < y ≤ 1 0<y \leq 1 0<y1代表目标IoU分数为 y y y的正样本。注意这里的定位质量标签 y y y沿用了[29_IoU_Aware_Detector][12_IoUNet]中的常见定义:训练时预测边界框与其对应真值边界框之间的IoU分数,并有一个0~1之间的动态值。参照[18_FocalLoss][26_FCOS],本文在多分类任务中使用多个基于sigmoid运算 σ ( ⋅ ) \sigma(\cdot) σ()的二元分类。为简化起见,sigmoid的输出记为 σ \sigma σ
由于提出的classification-IoU联合表示需要在整幅图像上进行密集预测而类别不平衡问题依然存在,FL的思想应当延续。然而,当前形式的FL仅支持{1,0}离散标签,但是本文的新标签包含小数。因此,本文提出对FL的两部分进行扩展,从而训练在联合表示的情况下顺利进行:(1)交叉熵部分 − log ⁡ ( p t ) -\log \left(p_{t}\right) log(pt)扩展成其完整版本 − ( ( 1 − y ) log ⁡ ( 1 − σ ) + y log ⁡ ( σ ) ) -\left(\left(1-y\right )\log\left(1-\sigma\right) + y\log\left(\sigma\right)\right) ((1y)log(1σ)+ylog(σ));(2)尺度因子部分 ( 1 − p t ) γ \left(1-p_{t}\right)^{\gamma} (1pt)γ被推广到估计 σ \sigma σ与其连续标签 y y y之间的绝对距离,即 ∣ y − σ ∣ β ( β > 0 ) {\left|y-\sigma\right|}^\beta \left(\beta > 0\right) yσβ(β>0),这里 ∣ ⋅ ∣ \left|\cdot\right| 运算保证了非负性。之后,本文将两种扩展部分合并成完整的损失函数,称为 Quality Focal Loss(QFL):

注意 σ = y \sigma=y σ=y是QFL的全局最小值解。图5(a)在质量标签 y = 0.5 y=0.5 y=0.5的情况下可视化了不同 β \beta β值的QFL函数。
在这里插入图片描述
跟FL相似,QFL的 ∣ y − σ ∣ β {\left|y-\sigma\right|}^\beta yσβ项表现为一种调制因子:当一个样本的质量估计不够准确而偏离标签 y y y时,调制因子就会相对较大,从而损失会更多的关注于学习当前的难样本。当质量估计变得准确时,即 σ → y \sigma \rightarrow y σy,质量因子会趋向于0,而降低估计准确样本的损失的权重,其中参数 β \beta β控制了权重降低率的平滑性(在本文实验中 β = 2 \beta=2 β=2效果最好)。
Focal Loss(FL):参照[26_FCOS, 31_ATSS],本文采用到定位到边界框框四条边的相对偏移作为回归目标(参见图4中的回归分支)。
在这里插入图片描述
边界框回归的常见操作是将回归标签 y y y建模成 Dirac delta distribution  δ ( x − y ) \delta(x-y) δ(xy),该分布满足 ∫ − ∞ + ∞ δ ( x − y ) d x = 1 \int_{-\infty}^{+\infty}\delta(x-y) dx = 1 +δ(xy)dx=1,且常常使用FC层来实现。正式来说,恢复 y y y的积分形式如下:

根据第1章中的分析,除了 Dirac delta[23_FasterRCNN, 8_MaskRCNN, 1_CascadeRCNN, 26_FCOS, 31_ATSS]和Gaussian[4_GaussianYOLOv3, 10_Box_Regression_with_Uncertainty]假设,本文提出直接学习隐含的一般分布 P ( x ) P(x) P(x),而不引入其它先验假设。给定标签 y y y的范围,即最小值 y 0 y_0 y0和最大值 y n ( y 0 ≤ y ≤ y n , n ∈ N + ) y_n(y_0\leq y\leq y_n,n\in \mathbb{N}^{+}) yn(y0yyn,nN+),可以从模型中获得估计值 y ^ \hat{y} y^ y ^ \hat{y} y^也满足 y 0 ≤ y ^ ≤ y n y_0\leq \hat{y} \leq y_n y0y^yn):
y ^ = ∫ − ∞ + ∞ P ( x ) x   d x = ∫ y 0 y n P ( x ) x   d x \hat{y}=\int_{-\infty}^{+\infty} P(x) x \mathrm{~d} x=\int_{y_{0}}^{y_{n}} P(x) x \mathrm{~d} x y^=+P(x)x dx=y0ynP(x)x dx
为了与CNN网络一致,本文将连续域上的积分转换为离散形式,通过将区间 [ y 0 , y n ] [y_0,y_n] [y0,yn]离散化成集合 { y 0 , y 1 , . . . , y i , y i + 1 , . . . , y n − 1 , y n } \{y_0,y_1,...,y_i,y_{i+1},...,y_{n-1},y_n\} {y0,y1,...,yi,yi+1,...,yn1,yn},且集合有偶数个间隔,记为 Δ \Delta Δ(为简单起见,本文使用 Δ = 1 \Delta=1 Δ=1)。 因此,给定离散分布性质 ∑ i = 0 n P ( y i ) = 1 \sum_{i=0}^{n} P\left ( y_i\right)=1 i=0nP(yi)=1,则估计回归值 y ^ \hat{y} y^可以表示为:
y ^ = ∑ i = 0 n P ( y i ) y i \hat{y} = \sum_{i=0}^{n} P\left ( y_i\right)y_i y^=i=0nP(yi)yi
因此, P ( x ) P(x) P(x)可以通过由 n + 1 n+1 n+1个单元的softmax层 S ( ⋅ ) \mathcal{S}(\cdot) S()来简单地实现,为了简单起见,记 P ( y i ) P\left ( y_i\right) P(yi) S i \mathcal{S}_i Si。注意 y ^ \hat{y} y^能够在传统的损失函数下以端到端的方式训练,例如SmoothL1[7_FastRCNN]、IoU-Loss[27_FitnessNMS]和GIoU-Loss[24_GIoULoss]。然而, P ( x ) P(x) P(x)取值有无限种组合,可以使最终的积分结果为 y y y,如图5(b)所示,这可能会降低学习的效率。直观上,与(1)和(2)相比,分布(3)更为紧凑,并且在边界框估计上往往更加可信和准确,这促使我们通过显式地鼓励对接近目标 y y y的取值概率更高,来优化 P ( x ) P(x) P(x)的形状。 此外,通常情况下,最合适的可能位置,如果存在,将不会偏离粗略标签太远。因此,本文引入 Distribution Focal Loss(DFL)来迫使网络迅速地聚焦于临近标签 y y y的取值,通过显式地鼓励 y i y_i yi y i + 1 y_{i+1} yi+1(距离 y y y最近的两项, y i ≤ y ≤ y i + 1 y_i\leq y \leq y_{i+1} yiyyi+1)上的高概率来实现。因为边界框的学习仅针对正样本而不会有类别不平衡的问题,本文就使用了QFL中完整的交叉熵部分来用于DFL的定义:
D F L ( S i , S i + 1 ) = − ( ( y i + 1 − y ) log ⁡ ( S i ) + ( y − y i ) log ⁡ ( S i + 1 ) ) \mathbf{DFL}\left( \mathcal{S}_i, \mathcal{S}_{i+1}\right) = - \left(\left(y_{i+1} - y\right )\log\left( \mathcal{S}_i \right) + (y- y_i)\log\left(\mathcal{S}_{i+1}\right)\right) DFL(Si,Si+1)=((yi+1y)log(Si)+(yyi)log(Si+1))
直观地,DFL是为了关注于增大目标 y y y邻近值的概率(即 y i y_i yi y i + 1 y_{i+1} yi+1)。DFL的全局最小解,即: S i = y i + 1 − y y i + 1 − y i \mathcal{S}_i = \frac{y_{i+1}-y}{y_{i+1}-y_i} Si=yi+1yiyi+1y S i + 1 = y − y i y i + 1 − y i \mathcal{S}_{i+1} = \frac{y - y_{i}}{y_{i+1}-y_i} Si+1=yi+1yiyyi(参见补充材料),此最小值可以保证估计的回归值 y ^ \hat{y} y^无限接近于对应的标签 y y y,即: y ^ = ∑ j = 0 n P ( y j ) y j = S i y i + S i + 1 y i + 1 = y i + 1 − y y i + 1 − y i y i + y − y i y i + 1 − y i y i + 1 = y \hat{y}=\sum_{j=0}^{n}P\left( y_j\right)y_j = \mathcal{S}_i y_i+ \mathcal{S}_{i+1}y_{i+1}= \frac{y_{i+1}-y}{y_{i+1}-y_i}y_i + \frac{y - y_{i}}{y_{i+1}-y_i}y_{i+1} = y y^=j=0nP(yj)yj=Siyi+Si+1yi+1=yi+1yiyi+1yyi+yi+1yiyyiyi+1=y,这样也确定了DFL作为损失函数的正确性。
Generalized Focal Loss(GFL):注意这里QFL和DFL可以统一为通用形式,本文将其称为 Generalized Focal Loss(GFL)。假设模型对两个变量 y l y_l yl y r y_r yr估计的概率为 p y l p_{y_l} pyl p y r p_{y_r} pyr p y l ≥ 0 , p y r ≥ 0 , p y l + p y r = 1 p_{y_l} \geq 0,p_{y_r} \geq 0,p_{y_l} + p_{y_r} = 1 pyl0,pyr0,pyl+pyr=1),则最终预测为其线性组合 y ^ = y l p y l + y r p y r   ( y l ≤ y ^ ≤ y r ) \hat{y} = y_lp_{y_l} + y_rp_{y_r}~(y_l\leq \hat{y} \leq y_r) y^=ylpyl+yrpyr (yly^yr)。对应于预测 y ^ \hat{y} y^的连续标签 y y y也满足 y l ≤ y ≤ y r y_l\leq y \leq y_r ylyyr。将绝对距离 ∣ y − y ^ ∣ β   ( β ≥ 0 ) {\left|y - \hat{y} \right|}^\beta~(\beta \geq 0) yy^β (β0)作为调制因子,则GFL的具体公式可以写为:
D F L ( p y l , p y r ) = − ∣ y − ( y l p y l + y r p y r ) ∣ β ( ( y r − y ) log ⁡ ( p y l ) + ( y l − y ) log ⁡ ( p y r ) ) \mathbf{DFL}(p_{y_l},p_{y_r}) = - {\left| y - \left ( y_lp_{y_l} + y_rp_{y_r}\right )\right|}^\beta \left ( \left ( y_r-y\right )\log\left( p_{y_l}\right) + \left ( y_l-y\right )\log\left( p_{y_r} \right)\right) DFL(pyl,pyr)=y(ylpyl+yrpyr)β((yry)log(pyl)+(yly)log(pyr))
GFL的性质: G F L ( p y l , p y r ) \mathbf{GFL}(p_{y_l},p_{y_r}) GFL(pyl,pyr)会在 p y l ∗ = y r − y y r − y l , p y r ∗ = y − y l y r − y l p_{y_{l}}^{*}=\frac{y_{r}-y}{y_{r}-y_{l}}, p_{y_{r}}^{*}=\frac{y-y_{l}}{y_{r}-y_{l}} pyl=yrylyry,pyr=yrylyyl时达到全局最小值,这也意味着估计值 y ^ \hat{y} y^完美匹配连续值标签 y y y,即: y ^ = y l p y l ∗ + y r p y r ∗ = y \hat{y} = y_{l}p_{y_{l}}^{*} + y_{r}p_{y_{r}}^{*} = y y^=ylpyl+yrpyr=y(请参见补充材料中的证明)。显然,原始的FL[18_FocalLoss]和本文提出的QFL以及DFL都是GFL的特殊形式(具体请参见补充材料)。注意GFL可以用于任何种类的一阶检测器。使用GFL改进的检测器与原始检测器会在两个方面有不同之处。首先,在推理时,GFL版会直接将类别分数(带有质量估计的联系表示)作为NMS的分数,而不需要乘上其它质量预测(即使存在其它预测分数,例如:FCOS[26_FCOS]和ATSS[31_ATSS]中的中心度)。其次,回归分支中最后一个预测边界框位置的layer现在会有 n + 1 n+1 n+1输出值而不是 1 1 1个输出了,这会带来额外的几乎可以忽略不计的运算成本,之后会在表3中显示。
训练使用GFL的密集检测器:本文定义使用GFL的训练损失 L \mathcal{L} L
L = 1 N pos ∑ z L Q + 1 N pos ∑ z 1 { c z ∗ > 0 } ( λ 0 L B + λ 1 L D ) \mathcal{L} = \frac{1}{N_\text{pos}}\sum_{z}\mathcal{L}_{\mathcal{Q}} + \frac{1}{N_\text{pos}}\sum_{z}\mathbf{1}_{\left\{ c_z^{*} > 0\right\}}\left ( \lambda_0\mathcal{L}_{\mathcal{B}} + \lambda_1\mathcal{L}_{\mathcal{D}} \right ) L=Npos1zLQ+Npos1z1{cz>0}(λ0LB+λ1LD)
其中 L Q \mathcal{L}_{\mathcal{Q}} LQ指QFL, L D \mathcal{L}_{\mathcal{D}} LD指DFL。通常来说, L B \mathcal{L}_{\mathcal{B}} LB指[26_FCOS, 31_ATSS]中的GIoU Loss。 N pos N_{\text{pos}} Npos表示正样本的数量。 λ 0 \lambda_0 λ0(一般默认为2,与[3_MMDetection]类似)和 λ 1 \lambda_1 λ1(实践中取 1 4 \frac{1}{4} 41,在四个方向上进行平均)分别是是 L Q \mathcal{L}_{\mathcal{Q}} LQ L D \mathcal{L}_{\mathcal{D}} LD的平衡权重。求和运算会在金字塔特征图[17_FPN]的所有位置 z z z上进行。 1 { c z ∗ > 0 } \mathbf{1}_{\left\{c_z^{*} > 0\right\}} 1{cz>0}是指示函数,在 c z ∗ > 0 c_z^{*} > 0 cz>0是为1而其它时为0。根据通常实现的官方代码[3_MMDetection, 26_FCOS, 31_ATSS, 15_Learning_from_Noisy_Anchors],本文也在训练是利用质量分数来加权 L B \mathcal{L}_{\mathcal{B}} LB L D \mathcal{L}_{\mathcal{D}} LD

4 实验

本文的实验在COCO数据集[19_COCO]上进行,其中trainval35k(115K张图像)用来训练,而本文使用minival(5K张图像)在本文的消融实验中用作验证。主要的结果是在test-dev(20K张图像)实现的,此数据可以通过评测服务器来获取。为了公平比较,所有的结果都使用mmdetection[3_MMDetection]来复现,并使用默认的超参数。除特别说明之外,本文对于后文实验使用1x学习率策略(12个epochs)且没有用到多尺度训练,实验都是基于ResNet50[9_ResNet]主干网络。关于更多训练/测试的细节请参阅 Supplementary Materials。
本文首先研究了QFL的效果(表1)。在表1(a)中,本文将提出的联合表示与其分开或非显式的等价形式作比较。
在这里插入图片描述
对于表示定位质量有两种方案:IoU[29_IoU_Aware_Detector, 12_IoUNet]和centerness[26_FCOS, 31_ATSS],这里也对其进行了实验。总的来说,本文构建了对使用分开或显式表示构建了4种变体,如图6所示。
在这里插入图片描述
由结果可知,本文发现使用QFL优化的联合表示比其它同类方法取得了更好的效果,而作为定位质量的衡量指标,IoU的表现始终优于centerness(请参见 Supplementary Materials)。表1(b)显示QFL能增强其它常见一阶检测器的性能,同时表1©表明 β = 2 \beta=2 β=2是QFL的最佳设置。图2(b)展示了采样的实例以及IoU分支模型和本文模型对其预测的类别和IoU分数,来说明联合表示的效果。它显示本文提出的使用QFL训练的联合表示能提升检测效果,因其质量估计更加稳定,并且由于其定义在分类和质量分数之间产生了更强的关联。实际上,在本文的联合表示中,预测的类别分数是等价于估计的质量分数。
其次,本文研究了DFL的效果(表2)。
在这里插入图片描述
为了更快地选取一个合适 n n n值,本文首先在 图5(c)中展示了回归目标的分布。
在这里插入图片描述
本文将在后面的实验中展示,对于ATSS超参数 n n n的推荐选择是14或16。在表2(a)中,本文对边界框回归不同数据表示的效果进行了比较。本文发现General分布获得了最佳或者至少是同等的结果,并且DFL能进一步增强其性能。图7展示了定量对比的结果。
在这里插入图片描述
本文发现提出的General分布相较于Gaussian和Dirac-delta分布可以提供更加准确的边界框定位,尤其是在遮挡严重的情况下(相关讨论请参见 Supplementary Materials)。基于改进的由GFL训练的ATSS,本文通过固定一项改变另一项的方式,展示了DFL中 n n n Δ \Delta Δ的影响,如图2(b)和©所示。结果显示 n n n的选择不会十分敏感,而 Δ \Delta Δ在实际中建议设置为较小值(例如:1)。为了显示General分布的效果,本文在图3中绘制了几种代表性的实例及其在四个方向上分布的边界框,其中提出分布的表示能够在边界框的形状上有效地反应出它们的不确定性(更多实例请参见 Supplementary Materials)。
第三,本文使用ResNet50主干在ATSS上进行消融实验来展示QFL和DFL的相对贡献(表3)。
在这里插入图片描述
FPS(Frames-per-Second)是在搭载单个GeForce-RTX-2080Ti-GPU的同一个设备上测量的,测试使用的batch-size为1,并且都在相同的mmdetection[3_MMDetection]框架下进行。本文发现DFL与QFL的收益是数据独立的,并且将两者联合使用(即GFL)可以将ATSS基线有效提升1%的AP分数。除此之外,对于推理速度而言,GFL几乎不会带来额外的开销,于是可以认为是十分实用的。
最后,本文将GFL(基于ATSS)和SOTA方法在COCO-test-dev上进行了对比,如表4所示。
在这里插入图片描述
根据已有文献[18_FocalLoss][26_FCOS],本文在训练时采用了multi-scale训练策略和2x学习率(24个epoch)。为了公平对比,本文列出了所有方法的单模单尺度寄过,以及它们相应的推理速度(FPS)。基于ResNet101[9_ResNet]的GFL在14.6FPS的情况下实现了45.0%AP,超越了其它基于相同主干的现有检测器,包括SAPD[33_SAPD](43.5%)和ATSS[ 31_ATSS](43.6%)。除此之外,DCN[36_DCNv2]也能很好地提升ResNe(X)主干的性能,其中基于ResNeXt-101-32x4d-DCN的GFL模型在10FPS的情况下获得了48.2%AP。图8对精度-速度均衡性进行了可视化,由图可知,本文提出的GFL方法将精度-速度边界的envelope推进到了一个更高的水平。

5 结论

为了使密集检测器有效地学习边界框的性质和分布,本文提出 Generalized Focal Loss(GFL),将原始的 Focal Loss从 { 0 , 1 } \{0,1\} {0,1}的离散形式扩展到连续形式。GFL能够特定化 Quality Focal loss(QFL)和 Distribution
Focal Loss(DFL),其中QFL鼓励学习对类别和定位质量更好的联合表示,DFL通过将边界框位置建模为General分布来提供信息丰富且更为准确的边界框表示。大量的实验证明GFL的有效性。本文希望GFL成为开源社区中一个简单且有效的基线模型。

A 关于分布的更多讨论

图9展示了 Dirac delta、Gaussian以及提出的General分布的含义,其中假设是从刚性(Dirac delta)变到柔性(General)。
在这里插入图片描述
本文还在表5中列出了对于这些分布较为重要的对比。
在这里插入图片描述
可以看到Gaussian假设的损失函数实际上是一个动态权重的L2-Loss,其训练权重与预测方差 σ \sigma σ相关。当在边缘级别进行优化时,它在某种程度上是类似于 Dirac-delta的损失函数(标准L2-Loss)。

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值