目录
前言
论文链接:https://arxiv.org/pdf/2208.11533v2.pdf
一种新的 FPN Scale Sequence(s²) 特征提取方法,以加强小目标的特征信息。作者将 FPN
结构视为尺度空间,并在 FPN
的水平轴上通过 3D 卷积
提取 Scale Sequence
(s²)特征。s²基本上是一个尺度不变的特征,建立在小目标的高分辨率金字塔特征图上。此外,所提出的特征可以扩展到大多数基于 FPN
的目标检测模型。
问题是什么?
小目标上的平均精度相对低于中型目标和大目标上的平均精度 。
作者通过对MS COCO数据集进行分析发现,小目标所占比例更大,但是其平均检测精度最小。
基于深度学习的目标检测模型已经使用特征金字塔网络(FPN
)作为Neck模块
来有效地处理多尺度目标。在检测head
之前,根据它们的比例将它们分配到一个单独的金字塔层。例如,在低分辨率金字塔特征图中检测大目标,在高分辨率金字塔特征图中检测小目标。
当输入图像输入 CNN
时,FPN
由通过每个卷积层的输出特征图组成。金字塔特征图的分辨率在卷积过程中变得更小。这种 FPN
架构类似于 Scale-Space
,FPN
的 level 轴
可以被认为是 Scale 轴
。因此,可以从 FPN
中提取尺度不变。这种方法也启发了FPN Scale Sequence
(s²)的诞生。
方法
受尺度不变启发,可以将cnn卷积类比为高斯模糊的过程。本文将FPN视作尺度空间,将不同分辨率的FPN输出调整为相同分辨率进行拼接。
受视频时间序列启发,将不同尺度的FPN视作一项卷积运动存在,将输出视作视频帧,对其进行3D卷积。
效果
1、SOAT对比
2、消融实验
2.1
2.2
2.3
拓展
1、什么是小目标:(1)尺寸小于32×32的物体 (2)宽高是原图宽高的十分之一以下
2、尺度空间理论:尺度空间是沿着图像的尺度轴构建的。它代表的不是一个尺度,而是目标可以具有的各种尺度范围。空间是通过使用高斯滤波器模糊图像而不是直接调整图像大小来生成的。(就是说通过滤波手段变换图像空间,每个滤波可以看作一个空间,对应变化后的图像,是原图像在该空间的映射或者是表现形式。)