【深度学习】【ICCV2019】FCOS

FCOS是一种消除锚点歧义的深度学习目标检测方法,采用全卷积方式,避免了 anchor-based 方法的复杂计算。通过在特征图上每个点预测边界框,FCOS提高了小目标检测的性能。它使用多级预测与FPN结合,通过中心度(center-ness)来过滤远离中心的低质量框,改善了检测结果。
摘要由CSDN通过智能技术生成


逐像素预测 更简单的检测器

Introduction

anchor boxes存在的缺点:

  1. 模型对anchor boxes的各种设置敏感。
  2. 尺度和长宽比一旦固定,对形状大小变换大的物体,尤其是对小物体的检测效果不好。
  3. 生成的anchor boxes数量太多,会造成训练样本不平衡。
  4. 计算复杂,比如和gt box的IoU的计算,匹配的阶段,并且占用内存。

出发点

Can we solve object detection in the neat per-pixel prediction fashion, analogue to FCN for semantic segmentation, for example?

DenseBox(CVPR2015)是这种基于FCN目标检测网络的初次尝试,它在原图的每个点都预测4个向量(与边的距离)和1个类别,如下图左边所示。但是DenseBox为了检测不同大小的目标,需要裁剪较大块包含目标物和具有充分背景信息的patches进行并resize到一定尺度进行训练,这就意味着为了检测不同大小的目标就需要用到图像金字塔,也就要利用卷积网络前向多次,不符合FCN只前向一次的原则。同时还有下图右边的问题,对于两个框重叠部分的像素,到底去回归哪个框?
在这里插入图片描述
FCOS在论文中不仅消除了这种歧义,还通过center-ness解决了自身算法引起的问题,在距离目标越远的像素点,它所预测的框质量比较低。通过一层center-ness分支来预测距离目标中心的偏移,并将该偏移作为权重衰减的系数应用于低质量的检测框。

Related works

Anchor-based Detectors

anchor就相当于滑动窗口,例如Faster RCNN在特征图上进行anchor的生成,生成了 H 16 × W 16 × 9 \frac{H}{16}\times \frac{W}{16}\times 9 16H×16W×9个anchor,9为预设的每个点生成anchor的数量。然后从20000多个anchor中选出256个进行分类和回归,对于每一个gt box,选择和它IoU最高的作为正样本,然后对于剩下的anchor,选择和gt box的IoU超过0.7的作为正样本,正样本数不超过128个,其次选择和gt box的IoU小于0.3的作为负样本。

Anchor-free Detectors

  • YOLOv1:只有临近gt box中心的点才去负责预测框的位置,所以recall比较低。将原图分为了 s × s s\times s s×s个grid,只有gt box中心的点所在的grid负责预测该框。
  • FCOS:充分利用gt box里面所有点去预测框的位置,同时通过center-ness与抑制质量不好的框。
  • CornerNet:预测框的左上角和右下角的点,然后分组,形成最后的预测框。需要后处理操作比如说分组。

FCOS

Fully Convolutional One-Stage Object Detector

label的生成
对于特征图上的一点 ( x , y ) (x,y) (x,y),可以映射回原图对应,其中 s s s是采样率:

在这里插入图片描述
比如说原图是 16 × 16 16\times 16 16×16,经过 s = 4 s=4 s=4后的下采样后特征图大小是 4 × 4 4\times 4 4×

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值