onestage方法_FCOS : 找到诀窍了，anchor-free的one-stage目标检测算法也可以很准

本文链接：https://blog.csdn.net/weixin_39687542/article/details/111887977

> 论文提出anchor-free和proposal-free的one-stage的目标检测算法FCOS，不再需要anchor相关的的超参数，在目前流行的逐像素(per-pixel)预测方法上进行目标检测，根据实验结果来看，FCOS能够与主流的检测算法相比较，达到SOTA，为后面的大热的anchor-free方法提供了很好的参考

来源：【晓飞的算法工程笔记】公众号

论文: FCOS: Fully Convolutional One-Stage Object Detection

Introduction

大多目标检测网络都是anchor-based，虽然anchor能带来很大的准确率提升，但也会带来一些缺点：

准确率对anchor的尺寸、长宽比和数量较为敏感，这些超参都会人工细调

anchor的尺寸和长宽是固定的，如果目标的相关属性相差较大，会比较难预测

为了高召回，通常会使用密集的anchor布满输入，大多为负样本，导致训练不平衡

anchor需要如IOU的复杂计算

近期，FCNs在各视觉任务中都有不错的表现，但目标检测由于anchor的存在，不能进行纯逐像素预测，于是论文抛弃anchor，提出逐像素全卷积目标检测网络FCOS网络，总结如下：

效仿前期的FCNs-based网络，如DenseBox，每个像素回归一个4D向量指代预测框相对于当前像素位置的偏移，如图1左

为了预测不同尺寸的目标，DenseBox会缩放或剪裁生成图像金字塔进行预测，而且当目标重叠时，会出现像素不知道负责预测哪个目标的问题，如图1右。在对问题进行研究后，论文发现使用FPN能解决以上问题，后面会细讲

由于预测的结果会产生许多低质量的预测结果，论文采用center-ness分支来预测当前像素与对应目标中心点的偏离情况，用来去除低质量预测结果以及进行NMS

Our Approach

Fully Convolutional One-Stage Object Detector

让$F_i\in \mathbb{R}^{H\times W\times C}$为层$i$的特征图，$s$为层的总stride，输入的GT为${B_i}$，$B_i=(x_0^{(i)},y_0^{(i)},x_1^{(i)},y_1^{(i)},c^{(i)})\in \mathbb{R}^4\times {1,2...C }$分别为box的左上角和右下角坐标以及类别，$C$为类别数。特征图$F_i$的每个位置$(x,y)$，可以通过$(\lfloor\frac{s}{2}\rfloor + xs, \lfloor\frac{s}{2}\rfloor + ys)$映射回原图，FCOS直接预测相对于当前像素的box位置，而不是anchor的那样将像素作为中心再回归

当像素$(x,y)$落在GT中则认为是正样本，将类别$c^$设置为目标类别，否则设置为0。除了类别，还有4D向量$t^=(l^,t^,r^,b^)$作为回归目标，分别为box的四条边与像素的距离。当像素落在多个GT中时，直接选择区域最小的作为回归目标。相对于anchor-based的IOU判断，FCOS能生成更多的正样本来训练回归器

Network Outputs

网络最终输出80D分类标签向量$p$和4D box坐标向量$t=(l,t,r,b)$，训练$C$个二分类器而不是多分类器，在最后特征后面分别接4个卷积层用于分类和定位分支，在定位分支使用$exp(x)$保证结果为正，整体输出比anchor-based少9x倍

Loss Function

$L_{cls}$为focal loss，$L_{reg}$为UnitBox中的IOU loss，$N_{pos}$为正样本数，$\lambda$为平衡权重，公式2计算特征图上的所有结果

Inference

对于输入图片，推理得到特征图$F_i$的分类分数$p_{x,y}$以及回归预测$t_{x,y}$，然后取$p_{x,y}>0.05$的作为正样本，公共公式1得到预测框位置

Multi-level Prediction with FPN for FCOS

下面讲下FCOS如何使用FPN来解决之前提到的问题：

由于large stride，通常最后的特征图都会面临较低的最大可能召回(best possible recall, BPR)问题。在anchor based detector中，可以通过降低IOU阈值来弥补，而实验发现，FCN-based的FCOS本身就能在large stride情况下还有更好的BPR，加上FPN，BPR则会更高

目标框重叠会导致难解的歧义，例如不知道像素对应哪个回归目标，论文使用多层预测来解决这个问题，甚至FCN-based效果比anchor-based要好

如图2，FPN使用${P_3,P_4,P_5,P_6,P_7 }$层特征，其中$P_3$、$P_4$和$P_5$分别通过$C_3$、$C_4$和$C_5$的$1\times 1$卷积以及top-down connection生成，$P_6$和$P_7$则是分别通过$P_5$和$P_6$进行stride为2的$1\times1$卷积生成，各特征的stride分别为8，16，32，64和128

anchor-based方法对不同的层使用不同的大小，论文则直接限制每层的bbox回归范围。首先计算$l^$,$t^$,$r^$和$b^$，如果满足$max(l^,t^,r^8,b^)>m_i$或$max(l^,t^,r^8,b^)如果本文对你有帮助，麻烦点个赞或在看呗～

更多内容请关注微信公众号【晓飞的算法工程笔记】