点击上方“AI公园”,关注公众号,选择加“星标“或“置顶”
导读
GFLV1之后很快又有了GFLV2,这次的思路是让位置质量的预测用上回归分支的信息,同时通过分布的平坦性来表示位置的质量,感觉确实要比V1中对分布的使用方式要优雅。
代码:https://github.com/implus/GFocalV2
论文:https://arxiv.org/abs/2011.12885
摘要:定位质量的预测对于物体检测是非常重要的,可以在做nms的提供准确的框的置信度,提高检测器的performance。一般来说,在做预测的时候,使用的是分类或者回归的共享特征,这篇文章中,提供了一种全新的角度来进行定位质量的预测,不是基于共享特征,而是基于学习到的4个包围框参数的分布,包围框的分布在GFLV1中有介绍。这样可以让包围框分布的统计特性和真实的位置质量高度相关,具体来说,如果分布中有一个非常高的峰值,这个往往就是高质量的位置,反之亦然。因此,基于GFLV1,我们开发了一个轻量级的分布导向的质量预测器,Distribution-Guided Quality Predictor(DGQP) ,用来得到可信的位置质量预测。
1. 介绍
GFLV1中用到了包围框的分布,为每一条边都预测一个离散的分布如下图(a),我们发现,这分布的统计特性和物体实际位置的质量是非常相关的。如下图(b)。具体来说,如下图(c)和(d),分布的情况可以很好的反映框的质量,分布越平,预测的框的质量越差,下图(c)中的bottom的分布相对较平,而实际的预测可以看到确实也和实际位置有较大的偏差,而其他的3个预测分布都是有一个很高的尖峰值,而且实际来看预测的位置也是很准确的。因此,可以考虑通过引导这个分布变得尖锐来得到更加准确的预测。
总来说,这篇文章的贡献如下:
首次将框的分布和预测质量联系到一起,并在端到端的框架中进行训练。
提出了GFLV2,可以无cost的放到大部分的物体检测器中,并得到2个点的提升,而且不需要牺牲训练推理速度。
在COCO数据集上达到53.3的AP。
2. 方法
2.1 GFLV1
Classification-IoU Representation
这个表征是GFLV1中关键部分,用来去掉位置质量预测和类别得分之间的训练和推理的不一致性,具体来说,对于目标的类别,GFLV1使用分类分支来得到这个联合表示,记为:J=[J1,J2,...,Jm],满足:
其中,
表示预测框和匹配到的gt框之间的IoU。
General Distribution of Bounding Box Representation
在GFLV1中,包围框的预测并不是直接预测框的位置,而是通过预测一个分布来得到预测框的位置,具体来说,可以这样表示:
相比于之前的狄拉克分布,使用这种分布可以很好的反映出预测的质量,而这也是这篇文章的基石。
2.2 GFLV1
Decomposed Classification-IoU Representation
尽管Classification-IoU 联合表征可以解决训练和推理时候对分类得分和位置质量得分使用的不一致问题,但是,只使用分类分支来预测这个联合表示仍然是有局限性,因此,我们利用来自分类(C)和回归(I)分支的信息对这个表示进行了分解:
其中,C=[C1,C2,...,Cm],C∈[0,1]表示m个类别的分类表示,I∈[0,1]是一个标量,表示IoU。
尽管J被分解成了2个部分,但是在训练和推理的时候,我们还是使用最终的联合表示的形式,所以,我们还是可以和GFLV1一样,避免训练和推理的不一致性。我们使用来自分类分支的C和来自回归分支的I结合起来,得到J,然后,J使用QFL进行监督学习,在推理的时候,直接使用J进行NMS。
Distribution-Guided Quality Predictor
DGQP是GFLV2的关键部分,我们把得到的分布P再送到一个小的子网络中,见图3,得到预测IoU标量I,然后再和C相乘,得到J。在做回归的时候,和GFLV1一样,我们回归的是当前的位置到4条边的距离,我们记做{l,r,t,b}。
从之前的分析我们了解到,学习到的这个分布和最终得到的包围框的质量是高度相关的,可以使用分布的统计量来反映出这个分布的平坦性,因此,这个统计量就和框的质量也高度相关,当我们在训练的时候使用这个统计量时,训练会更容易,质量的预测也会更好。在实践中,我们使用topk的值和这k个值的均值拼接起来作为这个统计量:
选择这两个值有两个好处:
由于 的和为1,topk值和均值可以大致的反映出分布的平坦性,越大越尖锐,越小,越平坦。
topk和均值对于距离是不敏感的,不会受到尺度的影响,可以得到一个鲁棒的表示。如图4。
我们把这个统计分布特征F作为输入,F输入的维度为4(k+1),k+1是topkm的维度,总共是4条边,所以是4(k+1),设计了一个非常小的子网络,来进行最后的IoU质量预测,这个子网络只有两层全连接,第一层使用ReLU激活,第二层使用sigmoid激活,用式子表示:
其中,W1的维度是p x 4(k+1),W2的维度是1xp,k表示topk的参数,p是隐藏层的单元数量,这里使用k=4,p=64,GFLV2的总体结构如图3,这个子网络是非常轻量级的,只有几千个参数,相比于总体模型来说是微不足道的。
3. 实验
统计量的选择
为什么选择topk和均值其实是做过实验的,文章中实验了均值和方差以及不同的组合,结果如下:
超参数k和p的选择
对于不同的k和p也有实验,从实验来看k=4,p=64能得到最好的结果,而且除了k=1以外,实际上对超参数的选择并不是非常的敏感:
对分解形式的使用
我们还研究了Classification-IoU联合表示的最佳形式,有两种基本的形式,组合形式和分解形式,我们用的是分解形式,具体如下图:
从结果来看,分解的形式会更好:
对于dense检测器的兼容性
确实是无cost涨点
4. 分析
为什么DGQP可以提升LQE呢?我们计算了预测的IoU和真实的IoU,然后计算两者之间的皮尔逊相关性,发现GFLV2相比于GFLV1,其线性程度确实有提升(+0.26),最终导致了0.9的AP提升,下图。
DGQP可以降低学习的难度,收敛到最后loss确实更低了,文章说加速训练过程,其实这图里没有体现出来,收敛到最小loss的时间基本上是一直的。
DGQP的输入输出可视化,这里选的是top1的值,如下图,确实有很高的相关性。
训练推理的效率,就是基本无cost,和ATSS,FCOS相比基本没有增加时间。
定性的结果,看下面的图就行了,只有GFLV2在最佳的候选框上具有最高的LQE得分。
—END—
论文链接:https://arxiv.org/abs/2011.12885
请长按或扫描二维码关注本公众号
喜欢的话,请给我个在看吧!