End-to-End Object Detection with Fully Convolutional Network

最新推荐文章于 2024-09-24 15:59:07 发布

M1kk0

最新推荐文章于 2024-09-24 15:59:07 发布

阅读量540

点赞数 3

分类专栏：目标检测文章标签：计算机视觉

本文链接：https://blog.csdn.net/qq_40028858/article/details/115520879

版权

目标检测专栏收录该内容

11 篇文章 1 订阅

订阅专栏

会议：CVPR 2021

论文：https://arxiv.org/pdf/2012.03544.pdf

代码：https://github.com/Megvii-BaseDetection/DeFCN

创新点：

基于FCOS，首次在dense prediction上利用全卷积结构做到E2E，即无NMS后处理。
提出了POTO，实现了one-to-one的label assignment。
提出了3D Max Filtering以增强feature在local区域的表征能力，并提出用one-to-many auxiliary loss加速收敛。

Abstract

最近，DETR引入了一种基于二分图匹配的训练策略，并将transformer与并行解码器结合起来，实现了end2end的检测。它实现了与许多最先进的探测器相比具有竞争力的性能。然而，目前DETR的训练时间较长，在小目标上的性能相对较低。为此，本文探索了一个新的视角：FCN能否实现端到端目标检测？

作者从两个角度来解决这个问题：label assignment & 网络结构。

大多数基于全卷积的detector都采用了one-to-many的label assignment，也就是对一个目标生成多个预测，这样做可以提供足够的前景样本，以获得强而健壮的特征表示。然而大量的前景样本会导致单个实例的预测框重复，后续还要进行去重（many-to-one），从而妨碍end2end的检测。所以作者设计了一个prediction-aware one-to-one (POTO) label assignment，同时根据分类质量和回归质量动态分配前景样本。

基于FPN的detector，重复的框往往产生于——置信度最高的区域附近，因此作者设计了一个3D Max Filtering(3DMF)，它是一个可以嵌入到FPN中的非线性滤波器。它在相邻尺度上使用一个简单的3D-max滤波算子，提高了卷积在局部区域的可分辨性。此外，为了对特征表示学习提供足够的监督，作者修改了one-to-many的assignment作为一部分loss。

效果：采用了FCOS和ResNeXt-101的框架，在COCO上比NMS检测器提高了1.1%的mAP；此外，该模型在拥挤场景中同样表现不错，在Crowd Human数据集上，使用ResNet-50，比FCOS with NMS提高了3%的AP $_{50}$ 和6%的mMR。

One-to-many vs. one-to-one

从RPN、SSD、RetinaNet等开始，大家一直遵循着这样一个流程：先对每个目标生成多个预测（one-to-many），再将多个预测去重（many-to-one）。所以，如果不对前一步label assignment动刀，就必须要保留去重的环节，即便去重的方法不是NMS，也会是NMS的替代物。

Prediction-aware One-to-one Label Assignment

令 $\Psi$ 表示所有预测的索引集。 $G$ 和 $N$ 分别对应ground-truth实例和预测的数量，在密集预测中，通常有 $\ll N$ 。 $\hat{\pi} \in \prod_G^N$ 表示 $N$ 个预测的 $G$ 个排列。POTO旨在生成预测的合适排列 $\hat{\pi}$ 作为前景样本。训练损失如式（1），其包含前景损失 $\mathcal{L}_{fg}$ 和背景损失 $\mathcal{L}_{bg}$ ：

$\mathcal{L} = \sum_{i}^G \mathcal{L}_{fg}(\hat{p}_{\hat{\pi}(i)}, \hat{b}_{\hat{\pi}(i)}|c_i,b_i) + \sum_{j \in \Psi / \mathcal{R}(\hat{\pi})}\mathcal{L}_{bg}(\hat{p}_j),\tag{1}$

其中 $\mathcal{R}(\hat{\pi})$ 表示已分配的前景样本的相应索引集。对于第 $i$ 个ground-truth， $c_i$ 和 $b_i$ 分别为类标签和边界框坐标。同时，对于第 $\hat{\pi}(i)$ 个预测， $\hat{p}_{\hat{\pi}(i)}$ 和 $\hat{b}_{\hat{\pi}(i)}$ 分别对应其预测分类得分和预测边界框坐标。

为了end2end，需要找出合适的标签分配 $\hat{\pi}$ 。如式（2），以前的工作通过使用前景损失作为匹配成本将其视为二分匹配问题，可以通过匈牙利算法快速解决：

$\hat{\pi} = \arg\min_{\pi \in \prod_G^N}\sum_i^G\mathcal{L}_{fg}(\hat{p}_{\hat{\pi}(i)}, \hat{b}_{\hat{\pi}(i)}|c_i,b_i).\tag{2}$

然而，前景损失通常需要额外的权重来缓解优化问题，例如不平衡的训练样本和多任务联合训练。如表1所示，这种特性使训练损失不是匹配成本的最优成本。因此，如式（2）和式（4），我们提出一种更干净而有效的方式（POTO）来寻找更好的分配：

$\hat{\pi} = \arg\max_{\pi \in \prod_G^N} \sum_i^G Q_{i,\pi(i)},\tag{3}$

其中

看起来稍微有点复杂，但其实就是用网络输出的prob代表分类，网络输出和gt的IoU代表回归，做了加权几何平均，再加一个类似于inside gt box的空间先验。

这里， $KaTeX parse error: Undefined control sequence: \Q at position 1: \̲Q̲_{i,\pi(i)}\in …$ 表示第 $i$ 个ground-truth与第 $\pi(i)$ 个预测的所提出的匹配质量。它同时考虑空间先验、分类置信度和回归质量。 $\Omega_i$ 表示第 $i$ 个ground-truth的候选预测集，即空间先验（spatial prior）。训练阶段广泛使用空间先验。例如，FCOS采用中心采样策略，其仅ground-truth实例中央部分的预测作为前景样本。我们也在POTO中使用它以获得更高的性能，但是它不是丢弃NMS的必需的。为了获得平衡，我们通过式（4）中的分类得分 $\hat{p}_{(\pi(i))}(c_i)$ 和回归质量 $KaTeX parse error: Undefined control sequence: \mbox at position 1: \̲m̲b̲o̲x̲{IoU}(b_i, \hat…$ 的加权几何平均。超参数 $\alpha \in [0,1]$ 调整分类和回归之间的比例，其中默认使用 $\alpha = 0.8$ 。POTO不仅弥补NMS的差距，还提高性能。