FCOS_ Fully Convolutional One-Stage Object Detection 论文笔记

最新推荐文章于 2024-09-11 15:45:55 发布

五十岁的少女

最新推荐文章于 2024-09-11 15:45:55 发布

阅读量113

点赞数

分类专栏：论文笔记_目标检测文章标签：计算机视觉人工智能深度学习 python 目标检测

本文链接：https://blog.csdn.net/weixin_40253737/article/details/119295800

版权

论文笔记_目标检测专栏收录该内容

17 篇文章 0 订阅

订阅专栏

background

任务：改变目标检测中边框的提供方法，降低计算量
关键词： Feature Pyramid ， Center-ness，Multi-level Prediction with FPN for FCOS

Introduction

以faster rcnn为例，基于anchor boxes产生预测框，然后做回归任务，但为了增大iou，选择了生成大量的预测框，其中大部分是无效的，过多的无效边框只会增大算力的负担，而且还会影响最终的训练效果，并且预测框的超参数的设置，很大程度上影响最终模型的效果，虽然有边框的微调，但是对于一些其他环境中的检测，微调的效果可能很差，而且边框大多数是固定住的，对于回归任务，边框敏感的任务来说，使模型的准确率降低不少，需要经过细心的调试，并且使用了非最大值抑制的方法，其中的并交比的设置也十分影响模型的准确性。

所以作者提出了一种不基于anchor boxes的方式来产生边框，并且边框的数目和计算开销都有了不错的降低，而且效果也不错

模型的主要思路是，先利用特征金字塔，产生不同分辨率下的feature maps，对于低分辨率的feature maps鲁棒性更强，主要负责图片中较大的物体的预测，而分辨率的feature maps主要负责图片中较小的物体的预测，不同分辨率下的预测边框互不干扰，最后通过shared heads对建议区域进行操作，产生box的预测，种类预测，和center-ness，center-ness主要是对最后的box的加权求和（因为论文作者取消了非最大值抑制的方法，对于非最大值抑制确实要消耗很高的算力，主要通过IOU进行比较的话，时间上的开销都很大）

Model

整体的结构

在这里插入图片描述

这里的P6,P7是P5通过stride为2的卷积依次产生的
Head是一个head 共享的，这样可以有效减少参数的引入，但不同分辨率下的输入，需要通过一个可学习的S矩阵来对他进行微调。

Fully Convolutional One-Stage Object Detector

对于实际的目标区域，由左上和右下的点确定
在这里插入图片描述

$B_{i}=(x_0^{(i)},y_0^{(i)},x_1^{(i)},y_1^{(i)},c^{(i)})$
其中前四个为目标边框的左上，右下坐标， $c^{(i)}$ 是目标的种类（如果点落入到背景中，则C=0），对于feature maps上的坐标（x,y),映射到输入的图片中为 $([\frac{s}{2}]+sx,[\frac{s}{2}]+sy)$
s是降采样的比例。

在这里插入图片描述

所以得到 $t^{*}=(l^{*},t^{*},r^{*},b^{*})$

Network Outputs

如上图最后的会产生Regression（WH4）,得到每个点对应的向量 $t = (l, t, r, b)$ ,将此向量与 $t^{*}$ 做回归，并且回归任务映射到 $e x p (x)$ 中

Loss Function

在这里插入图片描述

$P_{x,y}>0.05记为正样本$
$N_{x,y}$ 是W*H
$L_{cls}$ 是预测种类的损失
$L_{cls}$ 下面的公式是对边框的预测损失

Multi-level Prediction with FPN for FCOS

上面的结构图，P6,P7是由P5，通过stride为2的卷积得到
对于从 $p_{i}$ 中映射到输入图片中的边框预测要求：
$max(l^{*},t^{*},r^{*},b^{*})>m_{i}$ 或者 $max(l^{*},t^{*},r^{*},b^{*})<m_{i-1}$
eg:
P3:[0,64],P4:[64,128]…