参考:
End-to-End Object Detection with Fully Convolutional Network - 知乎
End-to-End Object Detection with Fully Convolutional Network 论文学习_calvinpaean的博客-CSDN博客
End-to-End Object Detection with Fully Convolutional Network阅读笔记_风行-CSDN博客
Propose:实现end-to-end的目标检测,Prediction-aware One-To-One (POTO) label assignment,不需要再NMS
Analysis on Label Assignment:
One-to-many Label Assignment
例如FCOS,如是不加NMS后处理,会导致有很多多余的高分预测,影响recall rate。
Hand-designed One-to-one Label Assignment
如YOLO,one-to-one label assignment is modified by two widely-used one-to-many label assignments: Anchor rule and Center rule.
Anchor rule,RetinaNet,gt实例仅和拥有最大IOU的anchor相计算。
Center rule, FCOS,gt实例仅和离实例中心最近的像素点相计算,其他像素点被设置为背景样本。
一对多分配策略有明显的优越性,但可以通过一对一的分配策略来去除NMS。
Method:
POTO利用one-to-one不再需要NMS;3DMF来抑制重复的预测。但是使用上面两个技巧,依旧达不到NMS+FCOS。为了提升网络的特征表示能力,引入auxiliary loss。
Prediction-aware One-to-one Label Assignment
根据预测的质量来做标签分配
label assignment的指标:
Q为第i个gt与第i个分配pi之间的匹配质量。
3D Max Filtering
卷积是一种具有平移等变的线性运算,它在不同的位置为相似的图案产生相似的输出。然而,由于同一实例的不同预测对于密集预测检测器通常具有相似的特征,因此该特性对重复消除有很大的障碍。Max filter是一种基于秩的非线性滤波器,但因为其不可导,只能作为替换NMS的后处理。
在FPN的每个尺度都进行特征的变换
3D Max Pooling分别作用于feature map的每个通道(每个尺度、每个location)。
相当于利用MF得到最高激活值的预测。
Auxiliary Loss
POTO 和3DMF 的性能仍要劣于 FCOS +NMS。
可能因为一对一标签分配策略提供的监督信息较少,使得网络很难学到强大而鲁棒的特征表示。降低了分类的判别力,造成性能的下降。
本文引入了一个辅助损失,基于一对多的标签分配策略和 focal loss ,提供充足的监督信息。将每个 FPN 阶段中的前9个预测作为候选框,根据等式4的匹配质量计算。然后如果匹配质量高于某阈值(通过所有候选框的匹配质量的均值和标准方差计算而来),该候选框就作为前景样本。
在图中注意,其辅助loss在乘法之前,乘法之后为one-one,其保证one-to-one的正样本在one-to-many中依然是正样本