ssFPN与小目标检测-CSDN博客

本文链接：https://blog.csdn.net/charles_zhang_/article/details/127720839

ssFPN学习笔记

ssFPN: Scale Sequence ( $S^2$ ) Feature Based-Feature Pyramid Network for Object Detection

Abstract

特征金字塔网络(FPN)是目标检测模型中考虑目标不同尺度的重要模块。然而，在小物体上的平均精度(AP)相对低于在中型和大型物体上的AP。原因是CNN更深的一层作为特征提取层会造成信息丢失。提出了一种新的FPN尺度序列( $S^2$ )特征提取方法，以增强小目标的特征信息。我们将FPN结构视为尺度空间，在FPN的水平轴上通过三维卷积提取尺度序列( $S^2$ )特征。它基本上是一个比例不变的特征，建立在小物体的高分辨率金字塔特征图上。此外，所提出的 $S^2$ 特征可以扩展到大多数基于FPN的目标检测模型。我们证明了提出的 $S^2$ 特征可以提高MS COCO数据集上一级和二级检测器的性能。基于提出的 $S^2$ 特性，我们分别为YOLOv4-P5和YOLOv4-P6实现了高达1.3%和1.1%的AP改进。对于Faster RCNN和Mask R-CNN，我们观察到在建议的 $S^2$ 特性下AP分别提高了2.0%和1.6%。

Introduction

目标检测是计算机视觉的基本任务之一。它已广泛应用于机器人视觉、自动驾驶(Liu et al. 2022)和无人机系统(UA V) (Huang, Chen, and Huang 2022)等应用。在过去的几年中，基于卷积神经网络(CNN) (LeCun et al. 1998)的目标检测模型显著提高了平均精度(AP)检测精度的性能。然而，小物体检测仍然是一项具有挑战性的任务(Oksuz等人，2020年)。据报道，这种最先进的模型用于探测小物体。通常情况下，小对象(APS)上的平均精度要比中对象(APM)和大对象(APL)上的平均精度低。根据MS COCO定义(Lin et al. 2014)，如果分割掩码的面积低于32x32像素，则对象被归类为“小”。

图1显示了在MS COCO数据集上对象尺度的比例和AP在小、中、大尺度之间的性能差距。我们可以看到小物体占比最大。然而，小物体(APS)的平均精度在其他尺度中是最低的。另外，红线表示与其他量表的性能差距。

自然图像中物体具有多种尺度，因此物体检测模型必须学习多尺度特征。为了处理多尺度，传统的计算机视觉研究了尺度不变的特征(Lowe 1999)。即使对象的尺度发生变化，尺度不变的特征也可以被检测到。如果模型学习了尺度不变的特征，可以有效地解决小目标检测问题。尺度空间(Lindeberg 2013)是一种多尺度表示，通过高斯核的方差参数化，提取尺度不变的特征。多尺度表示可以由不同分辨率的图像组成。另一方面，最近基于深度学习的对象检测模型使用特征金字塔网络(FPN) (Lin et al. 2017)作为颈部模块，有效地处理多尺度对象。在检测到头部物体之前，根据它们的比例将它们分配到一个单一的金字塔层。例如，在低分辨率的金字塔特征图中检测到大型物体，在高分辨率的金字塔特征图中检测到小型物体。

为了提高FPN的性能，有人提出了基于FPN的模型，以缓解每一级金字塔特征图之间的语义差距(Liu et al. 2018)。然而，大多数模型都是简单的融合操作，如连接。因此，他们不能充分考虑所有金字塔特征图的相关性。

当输入图像输入CNN时，FPN由经过各个卷积层的输出特征映射组成。金字塔特征图的分辨率变小在卷积处理过程中。这种FPN结构类似于尺度空间，可将FPN的水平轴视为尺度轴。因此，可以从FPN中提取尺度不变变量(Wang et al. 2020)。这种方法促使我们提出了FPN的尺度序列( $S^2$ )特征。金字塔等级越高，图像尺寸越小，但语义信息增强。我们将FPN的水平轴作为序列的时间轴，通过三维卷积提取时空特征(Tran et al. 2015)。因此，尺度序列特征可以是尺度空间的唯一特征，是尺度不变特征。此外，所有FPN特征图都可以通过三维协同参与操作。它包括所有金字塔特征图之间的比例相关性。

相比其他尺度，**小对象问题的原因是CNN的更深层次导致小对象特征和包围框的定位信息等信息丢失(Tong, Wu, and Zhou 2020)。**针对小目标，设计了基于高分辨率金字塔特征图的比例序列( $S^2$ )特征。在高分辨率的金字塔特征图中，通常会检测到小物体。因此，我们将每个金字塔特征均匀地调整为高分辨率特征图。具有扩展分辨率的金字塔特征图与高斯金字塔相似。它们被连接到4D张量用于三维卷积。这个立方体特征可以被视为动态头(Dai等人，2021年)中引用的一般视图。提取完成后，将所设计的尺度序列( $S^2$ )特征与高分辨率金字塔特征图相连接，用于检测头部小目标。

我们的贡献有三方面:

1)我们提出了一种新的尺度序列( $S^2$ )特征，该特征是在FPN水平上通过三维卷积提取的。作为尺度空间，FPN具有尺度不变的特征。同时，所有金字塔特征图都参与了提取比例尺序列特征的操作。

2)尺度序列特征建立在高分辨率的特征图上，增强了小目标的特征，可以改善小目标的AP，也可以改善其他尺度的AP。

3)尺度序列特征可以扩展到大多数基于FPN的目标检测模型。实验了具有尺度序列特征的一级和二级探测器。因此，我们可以观察到改进的AP

Related Works

Object detection models

随着CNN的发展，目标检测模型也得到了改进。一般情况下，根据区域建议相位的存在，将目标检测模型分为一级和二级检测器。两级检测器先从图像中提取出感兴趣的区域。Faster R-CNN (Ren et al. 2015)首先提出了区域建议网络(RPN)。在Mask R-CNN (He et al. 2017)中，他们在Faster R-CNN中添加了分割掩码损失。提出了包含更精确定位信息的RoIAlign方法。此外，据报道，Cascade R-CNN (Cai和Vasconcelos 2018)是一种多阶段检测器，训练时IoU阈值不断增加。

另一方面，一级检测器在没有RPN的情况下同时进行分类和边界盒回归。YOLO (Redmon et al. 2016)系列是众所周知的一级探测器。scaling - yolo4 (Wang, Bochkovskiy, and Liao 2021)提出了yolo4的一种缩放方法(Bochkovskiy, Wang, and Liao 2020)。它有各种子模型，如YOLOv4-P5和YOLOv4-P6根据金字塔级别。最近，最先进的建筑YOLOR (Wang, Yeh, and Liao 2021)通过统一隐性知识和显性知识提高了性能。

所提出的尺度序列( $S^2$ )特征可以应用于大多数目标检测模型。我们用所提出的尺度序列( $S^2$ )特征验证了一级和二级探测器的性能。

Scale-invariant feature

尺度不变特征(Lowe 1999)被定义为即使对象尺度发生变化也不能改变的特征。在传统的计算机视觉中，研究了处理多尺度目标的尺度不变特征。图像金字塔是一种基本的方法，可以表示不同尺度的物体。此外，尺度不变特征变换(SIFT) (Lowe 2004)从高斯滤波器生成的尺度空间中提取尺度不变特征。

同时，也有研究在特征金字塔中考虑尺度相关来代替图像金字塔，以降低计算复杂度。深尺度关系网络(DSRN) (Wang et al. 2019)通过双向卷积融合特征地图。此外，金字塔卷积(PConv) (Wang et al. 2020)将特征金字塔作为尺度空间，提取尺度不变的特征。每个不同大小的特征映射使用三个卷积核，调整相同大小后添加输出卷积特征。

然而，这些方法都是独立计算每个金字塔特征图的卷积。在本研究中**，我们将FPN视为尺度空间，并利用三维卷积提取尺度不变特征**。我们将该特征定义为FPN的一个独特特征——尺度序列( $S^2$ )特征。所有金字塔特征图均采用三维卷积计算。通过这个过程，可以考虑所有金字塔特征之间的相关性。此外，所提出的尺度序列( $S^2$ )特征包含了尺度变换的序列信息。

Feature fusion strategy

特征金字塔网络(FPN) (Lin et al. 2017)是处理多尺度特征的基本模块。FPN具有不同分辨率的特征金字塔，根据其尺度分配对象。这些特征金字塔通过自上而下的路径融合在一起。但由于各金字塔特征图由不同深度的卷积层生成，存在差异问题。路径聚合网络(PANet) (Liu et al. 2018)提出了一种新的融合方法，通过在FPN中添加自底向上的路径来缓解这一问题。

NAS-FPN (Ghiasi, Lin和Le 2019)通过AutoML训练找到了有效的特征融合策略。此外，双向特征金字塔网络(BiFPN) (Tan, Pang，和Le 2020)指出了其他模型对所有金字塔特征图一视同仁，而不考虑其分辨率，并提出了特征金字塔的加权融合方法。最近，动态头(Dai et al. 2021)通过使用感知尺度的注意来训练金字塔级自适应输入的重要性。

然而，以往的研究大多采用简单的求和和拼接的方法来融合金字塔特征。这种简单的结构不能考虑所有金字塔特征图之间的相关性。在本文中，我们将提出的比例序列( $S^2$ )特征连接到金字塔特征图。它反映了整个特征金字塔的相关性。因此，它可以丰富FPN对多尺度目标的检测。

Proposed Method

Scale Sequence ( $S^2$ ) Feature

在本节中，我们将介绍一个新特性:缩放序列( $S^2$ )。我们的目标是找到FPN的尺度不变特征。尽管图像的大小发生了变化，但尺度不变特征不发生变化。首先，我们解释了传统计算机视觉中的尺度空间理论(Lindeberg 2013)。沿着图像的尺度轴构造尺度空间。它表示的不是一个刻度，而是对象可以拥有的各种刻度范围。空间的生成是通过高斯滤波对图像进行模糊处理而不是直接调整图像的大小。尺度空间如图2 (a)所示。尺度参数值越大，生成的图像越模糊。在这个理论中，尺度是指图像的细节程度。也就是说，模糊图像失去了细节，但图像的结构特征突出。计算方法如下:

其中f(x, y)为二维图像， $f_σ(x, y)$ 是用二维高斯滤波器 $g_σ(x, y)$ 经过一系列卷积进行平滑生成的，σ为尺度参数，作为二维高斯滤波器的标准差，用于卷积。因此，这些图像分辨率相同，但尺度参数值不同。

我们将特征金字塔网络(FPN)作为尺度空间。当输入图像输入CNN时，FPN由经过各个卷积层的输出特征映射组成。低层次金字塔特征图是高分辨率的，具有定位信息，特别是对小物体。另一方面，高阶金字塔特征图分辨率较低，但语义特征丰富。这个性质类似于尺度空间，在尺度轴上有权衡信息。基于此结构，我们参考Dynamic head (Dai等人，2021)的总体视图，该视图将所有金字塔特征调整为相同分辨率后连接在一起。一般视图如图2 (b)所示。它显示了特征表示与水平轴不同。最后，我们从FPN的规模视图中提取出这个总体视图的一个独特特征。

其中Pi是第i个不同层次的金字塔特征图。分辨率最高的特征金字塔为 $P_3$ 。将金字塔特征图调整到特定分辨率后，将相同分辨率的特征图串联生成通用视图G。通视图表示为4D张量:G =(level · width · height · channel)。

FPN的一个独特特性是必须考虑所有通用视图特征映射。我们的动机来自于视频识别任务中的3D卷积(Tran et al. 2015)。在该领域中，利用三维卷积提取视频中的运动。图2 ©显示了时间轴上的视频帧。运动是序列，也是帧的空间信息。我们把通视图的金字塔特征图看作视频帧，这就是为什么通视图是一个卷积序列。视频帧的时间轴可以认为是一般视图的水平轴。

我们定义一个通用视图的唯一特征为尺度序列(S2)特征。在一般视图的水平轴上进行三维卷积提取。这种尺度序列特征是一般视点运动的时空特征。此外，FPN的所有金字塔特征图都有助于三维卷积运算。

因此，它可以包括跨特征金字塔的尺度相关性。它不同于其他基于fpn的特征融合方法，简单地在金字塔特征图之间求和和连接。尺度序列(S2)特征的定义如下:

其中 $Θs^2$ 为基于三维卷积的尺度序列模块。该模块可以从总体视图中提取尺度序列特征(S2)。为了应用三维卷积，我们将视场的水平轴作为视频帧的时间轴G =(时间·宽·高·通道)。因为时间是帧的长度，所以可以表示为一般视图的层数。

Framework Based on Scale Sequence (S2) Module

在本节中，我们将解释 $Θs^2$ ，这是一个缩放序列模块。图3显示了提议的尺度序列模块框架。通常，目标检测模型由骨干网、用于特征融合的颈部模块和检测头部组成。输入图像馈入骨干网。使用CNN或Transformer (Liu et al. 2021)作为骨干提取特征。通过每个卷积层的卷积特征记为{C1, C2, C3, C4, C5}。接下来，在Neck中通过自顶向下和自底向上的融合对卷积特征进行聚合。我们采用路径聚合网络(PAN)架构代替FPN，实现有效的多尺度特征融合。金字塔特征记为{ $P_3$ ,P4,P5}。图3 (b)显示了输入尺度序列模块的金字塔特征。

在比例序列模块中，由于高分辨率特征图 $P_3$ 中检测到小物体，因此基于 $P_3$ 设计了比例序列特征。我们将所有金字塔特征图的分辨率调整为 $P_3$ 。为了构建一个总体视图，我们使用unsqueeze函数为每个特征添加水平维度并将它们连接起来。这个通用视图被输入到三维卷积块中。三维卷积块由三维卷积、三维批归一化和Leaky ReLU (Xu et al. 2015)激活函数组成。为了降低复杂度，我们采用了一个三维卷积块。在小目标检测中，将尺度序列(S2)特征与 $P_3$ 特征结合或一起用于检测头。通过在水平轴上平均池化三维来计算三维卷积块的输出特征。最后，尺度序列特征具有相同的 $P_3$ 宽度、高度和通道。新的小物体探测头具有相同的分辨率，但通道为:

其中 $P_{S^{2}_3}$ 是比例序列(S2)特征与金字塔特征图中分辨率最高的P3特征拼接的结果。因此，在这个新的探测头 $P_{S^{2}_3}$ 中可以探测到小物体。

我们默认使用P3对小物体提取所提出的尺度序列特征。然而，尺度序列特征的基分辨率大小不需要高分辨率。它可以根据应用的目的改变不同的分辨率。

尺度序列模块可应用于一级和二级探测器。图3 ©为一级探测器头的过程，图3 (d)为二级探测器头的过程。为了有效地对两级RoI头进行模块化，在PS23中增加了1x1卷积。作为一个结果,二级探测器 $P_{S^{2}_3}$ 的通道大小与P3的通道大小相同。

Experiments

Conclusion

在本文中，我们提出了一种新的尺度序列(S2)特征来改进目标检测。它是从FPN等目标检测模型的Neck模块中提取出来的。该特征通过反映以前没有考虑过的卷积序列，丰富了FPN特征。特别地，提出的特征设计基于高分辨率金字塔特征图，以提高小目标检测。在小尺度和其他尺度上都取得了AP的改善。尺度序列特征可以简单地扩展到大多数目标检测模型的FPN。此外，我们还证明了具有尺度序列特征的一级和二级检测器都增加了MS COCO数据集上的AP。