（八）论文阅读 | 目标检测之FCOS

最新推荐文章于 2024-05-12 21:33:06 发布

zhangts20

最新推荐文章于 2024-05-12 21:33:06 发布

阅读量661

点赞数

分类专栏：论文阅读文章标签：计算机视觉深度学习人工智能

本文链接：https://blog.csdn.net/Skies_/article/details/104895696

版权

论文阅读专栏收录该内容

54 篇文章 33 订阅

订阅专栏

简介

在这里插入图片描述

图1：论文原文

论文是发表在 ${\rm ICCV\ 2019}$ 上的一篇关于目标检测的论文，提出一种新的 ${\rm Anchor}$ - ${\rm Free}$ 方法。大体来看，这篇论文的方法与FSAF有异曲同工之妙。实验结果为在 ${\rm MS\ COCO}$ 上数据集上的 ${\rm AP}$ 上为 ${\rm 44.7\%}$ 。论文原文源码

0. Abstract

作者提出 ${\rm FCOS}$ 上以解决目标检测中的像素级检测问题，类似于图像语义分割。 ${\rm FCOS}$ 是一种 ${\rm Anchor}$ - ${\rm Free}$ 上的方法，避免了一系列 ${\rm Anchor}$ - ${\rm Based}$ 方法相关的问题。

论文贡献：（一）提出一种新的 ${\rm Anchor}$ - ${\rm Free}$ 目标检测方法；（二）由于将目标检测当做像素级的检测，这使得目标检测可以和很多图如语义分割和实例分割的方法相互借鉴（比如 ${\rm CVPR\ 2020\ Oral}$ 的一篇一阶段实例分割方法 ${\rm PolarMask}$ 就是基于 ${\rm FCOS}$ ）。

1. Introduction

前面是关于目标检测常规介绍，并指出 ${\rm Anchor}$ - ${\rm Based}$ 方法的一些不足：

检测器性能对先验 ${\rm Anchor}$ 的尺寸和宽高比敏感；
${\rm Anchor}$ 的尺寸和宽高比一旦设定，只能通过训练过程中的微调改变，这不利于多尺度检测。同时先验 ${\rm Anchor}$ 不具有可扩展性，在不同数据集上需要重新设置（先验框的尺寸往往通过聚类得到）；
为了获得更高的精度， ${\rm Anchor}$ - ${\rm Based}$ 方法需要在输入图像上设置大量 ${\rm Anchor}$ ，而其中大部分 ${\rm Anchor}$ 所包含的内容为背景，这会导致训练过程中样本的不平衡性；
${\rm Anchor}$ 的设置会产生大量的冗余计算。

${\rm FCN}$ 在密集检测任务中表现出色，例如图像语义分割、深度估计、关键点检测、人群计数等。作者指出，目标检测是否也能够看作像素级预测问题？基于 ${\rm FCN}$ 的目标检测方法，在特征图的每个位置预测一个 $4$ 维的位置向量和类别置信度（对特征图上每一个像素点分类）。下图是 ${\rm FCOS}$ 中的做法：

在这里插入图片描述

图2：FCOS

上图左半部分是预测的一个四维向量 $(l, t, r, b)$ ，右图是当某个位置存在多个预测框的情况。

作者大量借鉴 ${\rm DenseBox}$ 的思路， ${\rm DenseBox}$ 的做法是：为了解决不同边界框的尺寸问题，采用图像金字塔作为输入，得到 $5$ 个通道的特征图用于预测置信度和边界框宽高。但作者认为这类方法不能很好处理地含有重叠框的情况（如图 $2$ 中的右图）。此外，实验发现， ${\rm FCOS}$ 会产生大量远离目标中心的边界框。为了抑制这些框，作者在模型中添加一个 ${\rm center}$ - ${\rm ness}$ 分支。下面是 ${\rm FCOS}$ 的特点：

（1）将检测同基于 ${\rm FCN}$ 的如图像语义分割任务相统一，可以轻松复用其思想；

（2） ${\rm Anchor}$ - ${\rm Free}$ 减少参数量和人工干预；

（3）简化计算过程（如去掉 ${\rm IoU}$ 的计算等）；

（4）在一阶段检测算法中表现 ${\rm SOTA}$ ；

（5）可以轻易迁移到其他像素级任务中，如实例分割、特征点估计等。

2. Related Work

${\rm Anchor}$ - ${\rm Based}$ ： ${\rm Fast\ R}$ - ${\rm CNN}$ 、 ${\rm Faster\ R}$ - ${\rm CNN}$ 、 ${\rm SSD}$ 、 ${\rm YOLOv2}$ ； ${\rm Anchor}$ - ${\rm Free}$ ： ${\rm YOLOv1}$ 、 ${\rm CornerNet}$ 、 ${\rm DenseBox}$ 。

3. Our Approach

3.1 Fully Convolutional One-Stage Object Detector

令 $F_i∈{\mathbb R}^{H×W×C}$ 为第 $i$ 层特征图， $s$ 为下采样倍数，真实框 $B_i=(x_0^{(i)},y_0^{(i)},x_1^{(i)},y_1^{(i)},c^{(i)})\in \mathbb{R}^4×\{1,2,...,C\}$ 。其中， $x_0^{(i)},y_0^{(i)})$ 和 $x_1^{(i)},y_1^{(i)})$ 分别表示真实框的左上角和右下角坐标， $c^{(i)}$ 表示具体的类别。

对于 $F_i$ 上的位置 $(x, y)$ ，将其映射回原图后的位置为 $\lfloor s/2+xs,s/2+ys\rfloor$ ，且该位置位于 $(x, y)$ 对应感受野的中心附近。不同于 ${\rm Anchor}$ - ${\rm Based}$ 中将该位置所在的 ${\rm Anchor}$ 视为正样本， ${\rm FCOS}$ 的做法是直接基于该位置来回归边界框。此时，位置 $(x, y)$ 被当作正样本，且类别为对应真实框的类别。

同时，使用一个 $4$ 维向量 $t^*=(l^*,t^*,r^*,b^*)$ ，依次表示真实框中心点到边界框各边的距离，也即是该位置的回归目标。如果该位置落入多个标注框中，则将其视为模糊样本，并选择较小的边界框作为其回归目标(后面使用 ${\rm FPN}$ 会大大减少模糊样本的数量)。同时该位置的类别为与其有最大 ${\rm IoU}$ 的标注框。如，位置 $(x, y)$ 落入标注框 $B_i$ 中，则回归目标为： $l^*=x-x_0^{i},\ \ \ t^*=y-y_0^{i}$ $r^*=x_1^{i}-x,\ \ \ b^*=y_1^{i}-y\tag{1}$

网络的输出是 $1$ 个 $80$ 维的类别向量 $p$ 和 $1$ 个 $4$ 维的位置向量 $t = (l, t, r, b)$ 。同时，在 ${\rm Backbone}$ 后分别增加 $4$ 个卷积层分别用于预测分类和回归(如下图 $3$ )。损失函数定义为： $L(\{p_{x,y}\},\{t_{x,y}\})=\frac{1}{N_{pos}}\sum_{x,y}L_{cls}(p_{x,y},c^*_{x,y})+\frac{λ}{N_{pos}}\sum_{x,y}1_{\{c^*_{x,y}>0\}}L_{reg}(t_{x,y},t^*_{x,y})\tag{2}$

$L_{cls}$ 为 ${\rm Focal\ Loss}$ ， $L{reg}$ 为 ${\rm IoU\ Loss}$ (目标检测中常用的套路，分类用 ${\rm Focal\ Loss}$ ，回归用 ${\rm IoU\ Loss}$ )， ${N_{pos}}$ 为正样本数量， $λ$ 为平衡系数。 $1_{\{c^*_{x,y}>0\}}$ 为指示函数，满足条件为 $1$ ，否则为 $0$ 。

3.2 Multi-level Prediction with FPN for FCOS

这里，作者使用 ${\rm FPN}$ 解决 ${\rm FCOS}$ 所出现的相关问题： $(1)$ 最后一个下采样特征层得到的最大召回率较低。作者认为出现的原因可能是：由于较大倍数的下采样操作，原图中存在的小目标可能已不存在于当前特征图。 $(2)$ 当出现标注框重叠的情况时，检测效果可能因此下降。上述问题均涉及多尺度检测问题，目标检测中通常采用 ${\rm FPN}$ 结构解决此类问题。令 ${P_3,P_4,P_5,P_6,P_7 \}$ 为得到的 $5$ 个特征图。如下图：

在这里插入图片描述

图3：FCOS结构

首先针对特征图上的每个位置计算回归目标 $l^*,t^*,r^*,b^*$ 。如果某个位置的 ${\rm max}(l^*,t^*,r^*,$ $b^*)>m_i$ 或 ${\rm max}(l^*,t^*,r^*,b^*)<m_{i-1}$ ，则将其视为负样本，不需要参与回归 $m_i$ 表示第 $i$ 层特征图需要回归的最大距离， $m_2,m_3,m_4,m_5,m_6,m_7$ 分别设置为 $0, 64, 128, 256, 512, \infty$ 。这里相当于对回归目标直接做了一次限制，如果当前层的回归目标尺寸不符合预先设定的范围，则不对该样本进行回归。这在一定程度上能够缓解尺寸不协调的问题。

3.3 Center-Ness for FCOS

解决了多尺度预测的问题后，仍存在另一个问题：实验表明 ${\rm FCOS}$ 会产生大量偏离目标中心的边界框。论文提出一种有效的解决办法：在同分类分支处添加一个平行层用于预测 ${\rm center}$ - ${\rm ness}$ ，见图 $3$ 。 ${\rm center}$ - ${\rm ness}$ 指当前位置同该位置所负责边界框的归一化距离，计算方法如下： ${\rm centerness^*}=\sqrt{\frac{{\rm min}(l^*,r^*)}{{\rm max}(l^*,r^*)}×\frac{{\rm min}(t^*,b^*)}{{\rm max}(t^*,b^*)}}\tag{3}$

这里，在远离目标中心的边界框中，假设这些低质量框在目标的右上方且与有效框无交集，则 $l^*+w=r^*$ 、 $b^*+h=t^*$ ，由上式计算的 ${\rm centerness}$ 值会比离目标中心近的边界框的值小。从而达到抑制低质量框的目的。这里 ${\rm centerness^*}$ 值的范围是 $0$ 到 $1$ ，使用交叉熵损失函数。

${\rm center}$ - ${\rm ness}$ 是如何发挥作用的呢？在测试阶段，最后的得分(用于对建议框排序)通过将 ${\rm centerness}$ 值同分类得分相乘得到。因此 ${\rm center}$ - ${\rm ness}$ 能够降低原理目标中心边界框的权重，最后通过 ${\rm NMS}$ 就可以将置信度低的建议框过滤。

4. Experiments

本部分首先介绍了所使用的的数据集 ${\rm MS\ COCO}$ ，以及训练和推理细节，然后就是一系列的消融实验。这部分主要关于 ${\rm FPN}$ 用于多尺度检测，消融实验 $1$ 结果：

在这里插入图片描述

图4：消融实验1结果对比

这里同 ${\rm RetinaNet}$ 作对比，其中 ${\rm BPR(Best\ Possible\ Recall)}$ 表示最大召回率。这里召回率的计算方式是：分配了建议框的标注框个数与总的标注框个数的比值。 ${\rm Low}$ - ${\rm quality\ matches}$ 表示在所有建议框中低质量框的保留情况。如其中 ${\rm None}$ 表示滤除后不滤除低质量框， ${\rm All}$ 表示保留所有建议框（如根据建议框与标注框的 ${\rm IoU}$ 滤除了所有低质量框）。这部分主要关于 ${\rm FPN}$ 用于消除模糊样本，消融实验 $2$ 结果：

在这里插入图片描述

图5：消融实验2结果对比

从图中可得知，使用 ${\rm FPN}$ 后模糊样本大量减少。 ${\rm diff}$ 表示进一步排除在重叠区域内属于同一类别的模糊样本。这部分主要是关于 ${\rm center}$ - ${\rm ness}$ 的使用，消融实验 $3$ 结果：

在这里插入图片描述

图6：消融实验3结果对比

${\rm w/GN}$ 表示组归一化（ ${\rm with\ Group\ Normalization}$ ）； ${\rm ctr.\ on\ reg}$ 表示将 ${\rm center}$ - ${\rm ness}$ 分支移至回归分支处； ${\rm ctr.\ sampling}$ 表示仅将标注框的中心区域采样为正样本； ${\rm GIoU}$ 表示使用 ${\rm GIoU\ Loss}$ ； ${\rm Normalization}$ 表示将回归目标归一化，详情参考源码。这部分主要关于 ${\rm FCOS}$ 同经典目标检测算法的对比：

在这里插入图片描述

图7：实验结果对比

5. Conclusion

论文提出了一种的新的 ${\rm Anchor}$ - ${\rm Free}$ 目标检测方法，将特征图上的点作为训练样本回归边界框。同时提出 ${\rm centerness}$ 滤除远离目标中心的框。此外，论文思路同 ${\rm FSAF}$ 类似。下图为 ${\rm FSAF}$ 的结构：

在这里插入图片描述

图8：FSAF

${\rm FSAF}$ 以 ${\rm RestinaNet}$ 为 ${\rm baseline}$ ，同样是基于 ${\rm FPN}$ 结构。在每个预测分支上又划分为两个子分支，分别用于预测分类和回归。同时在分类和回归分支上通过卷积层接上两个 ${\rm Anchor}$ - ${\rm Free}$ 分支，上图是共同训练 ${\rm Anchor}$ - ${\rm Base}$ 和 ${\rm Anchor}$ - ${\rm Free}$ 。 ${\rm FSAF}$ 也可以单独训练 ${\rm Anchor}$ - ${\rm Free}$ 。更多详细内容请参考原文。

最后，前面介绍的几篇基于 ${\rm Anchor}$ - ${\rm Free}$ 的目标检测论文(CornerNet、CenterNet-Triplets、CenterNet-Points、ExtremeNet)和 ${\rm FCOS}$ （及 ${\rm FSAF}$ ）为基于 ${\rm Anchor}$ - ${\rm Free}$ 的目标检测方法的两种不同思路，前者是通过卷积生成热图寻找关键点，进而生成边界框。而后者是通过更改分类或检测分支，基于卷积添加一个 ${\rm Anchor}$ - ${\rm Free}$ 分支完成检测。

参考

Tian Z, Shen C, Chen H, et al. Fcos: Fully convolutional one-stage object detection[C]// Proceedings of the IEEE International Conference on Computer Vision. 2019: 9627-9636.
Zhu C, He Y, Savvides M. Feature selective anchor-free module for single-shot object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019: 840-849.

完