目录
FCOS: Fully Convolutional One-Stage Object Detection
Abstract
总结:
- a fully convolutional one-stage object detector (FCOS)
- solve object detection in a per-pixel prediction fashion(逐像素预测)
Introduction
总结:
- 检测定义:一张图片上每一个实例都检测出一个bounding box和category label
- 指出anchor-base方法的缺陷:重点在于anchor的存在-----有意思的点:为了达到较高的召回率,一个基于anchor的检测器需要在输入图像上密集放置锚盒(例如,FPN中在一张图像上放置超过180K锚盒,其较短的一侧为800)。这些锚框中的大多数在训练期间被标记为负样本----训练中正负样本的不平衡。
- 指出FCN方法的热门,但是由于anchor的存在,使得目标检测无法做到逐像素的预测
- 问题:能否逐像素预测方式解决目标检测,类似于 FCN 进行语义分割
- 指出先前的工作——基于FCN的框架做逐像素预测:DenseBox——在特征图级别上直接预测每个空间位置的 4D 向量加上一个类类别
- 缺陷1:为了处理不同大小的边界框,DenseBox会裁剪并将训练图像的大小调整为固定的比例。因此,DenseBox必须对图像金字塔进行检测,这与FCN计算一次所有卷积的原理相反。
- 缺陷2:这些方法不适用于具有高度重叠边界框的一般目标检测——回归歧义
- 指出两点
- 问题:针对具有高度重叠边界框的回归歧义
- 解决:采用FPN可以极大消除
- 问题:单纯FCOS方法会在远离目标物体中心的位置产生许多低质量的预测边界框
- 解决:增加一个center-ness分支,用来预测像素到其对应的边界框中心的偏差,然后使用该分数降低检测到的低质量边界框的权重,并在NMS中合并检测结果。简单但很有效。
- 问题:针对具有高度重叠边界框的回归歧义
Paper 自我总结:
- 其他FCN相关任务的思想可以应用到检测中
- New detection framework makes the detector, particularly its training, considerably simpler.
- Faster training and less training memory
- FCOS can be used as a Region Proposal Networks (RPNs) in two-stage detectors and can achieve significantly better performance than its anchor-based RPN counterparts.
Related Work
Anchor-based Detectors
- 发展:traditional sliding-window——>proposal based detectors such as Fast R-CNN——>anchor boxes Faster R-CNN
- 本质:training samples
- 问题:anchor所带来的超参数是特定,使得检测任务偏离了其他密集预测任务(如语义分割)中使用的整齐的全卷积网络架构。
Anchor-free Detectors.
- YOLOv1
- 做法:在物体中心附近的点预测边界框,仅使用中心附近的点,因为它们被认为能够产生更高质量的检测。
- 问题:由于只使用中心附近的点来预测边界框,YOLOv1的召回率较低
- 比较:FCOS使用ground truth bounding box内的所有点去预测bounding box,并且所提出的“中心度”分支抑制了低质量检测到的边界框。
- CornerNet
- 做法:检测边界框的一对角点位置并将它们分组以形成最终检测到的边界框。
- 问题:CornerNet 需要更复杂的后处理来对属于同一实例的角对进行分组。出于分组的目的,学习了一个额外的距离度量。
- DenseBox Family
- 问题:处理重叠边界框的困难和召回率相对较低
- 比较:FCOS通过通过多级 FPN 预测在很大程度上缓解这两个问题
Our Approach
以像素预测方式重新构造目标检测——>利用多级预测来提高召回率并解决重叠边界框产生的歧义——>提出的“centerness”分支,有助于抑制低质量检测到的边界框并大幅提升整体性能。
Fully Convolutional One-Stage Object Detector
- Feature maps at layer i of a backbone CNN: F i ∈ R H × W × C F_{i} \in \mathbb{R}^{H \times W \times C} Fi∈RH×W×C