一文看尽物体检测中的各种FPN

早期的物体检测算法,无论是一步式的,还是两步式的,通常都是在Backbone的最后一个stage(特征图分辨率相同的所有卷积层归类为一个stage)最后一层的特征图,直接外接检测头做物体检测。此种物体检测算法,可以称之为单stage物体检测算法。

由于单stage物体检测算法中,Backbone的最后一个stage的stride通常是32,导致输出的特征图分辨率是输入图片分辨率的1/32,太小,不利于物体检测,因此单stage的物体检测算法,一般会将最后一个stage的MaxPooling去掉或者将stride为2的conv改为stride为1的conv,以增大最后一个分辨率。

后来研究发现,单stage物体检测算法中,无法用单一stage的特征图同时有效的表征各个尺度的物体,因此,后来物体检测算法,就逐渐发展为利用不同stage的特征图,形成特征金字塔网络(feature parymid network),表征不同scale的物体,然后再基于特征金字塔做物体检测,也就是进入了FPN时代。

本文将认真梳理物体检测中常用的各种FPN。

解构物体检测各个阶段

如上图,我们常见的物体检测算法,其实可以分解为三个递进的阶段:

1)Backbone生成特征阶段

计算机视觉任务一般都是基于常用预训练的Backbone,生成抽象的语义特征,再进行特定任务微调。物体检测也是如此。

Backbone生成的特征,一般按stage划分,分别记作C1、C2、C3、C4、C5、C6、C7等,其中的数字与stage的编号相同,代表的是分辨率减半的次数,如C2代表stage2输出的特征图,分辨率为输入图片的1/4,C5代表,stage5输出的特征图,分辨率为输入图片的1/32。

2)特征融合阶段

这个是FPN特有的阶段,FPN一般将上一步生成的不同分辨率特征作为输入,输出经过融合后的特征。输出的特征一般以P作为编号标记。如FPN的输入是,C2、C3、C4、C5、C6,经过融合后,输出为P2、P3、P4、P5、P6。这个过程可以用数学公式表达:

[公式]

3)检测头输出bounding box
FPN输出融合后的特征后,就可以输入到检测头做具体的物体检测。

FPN的演进

物体检测性能提升,一般主要通过数据增强、改进Backbone、改进FPN、改进检测头、改进loss、改进后处理等6个常用手段。

其中FPN自从被提出来,先后迭代了不少版本。大致迭代路径如下图:

1)无融合

无融合,又利用多尺度特征的典型代表就是2016年日出的鼎鼎有名的SSD,它直接利用不同stage的特征图分别负责不同scale大小物体的检测。

2)自上而下单向融合

自上而下单向融合的FPN,事实上仍然是当前物体检测模型的主流融合模式。如我们常见的Faster RCNNMask RCNNYolov3RetinaNetCascade RCNN等,具体各个FPN的内部细节如下图。

a)Faster/Master/Cascade RCNN中的FPN

Faster/Master/Cascade RCNN中的FPN,利用了C2-C6五个stage的特征,其中C6是从C5直接施加1x1/2的MaxPooling操作得到。FPN融合后得到P2-P6,其中P6直接等于C6,P5是先经过1x1Conv,再经过3x3Conv得到,P2-P4均是先经过1x1Conv,再融合上一层2xUpsample的特征,再经过3x3Conv得到。具体过程可以看上图。

b)RetinaNet中的FPN

RetinaNet中的FPN,利用了C3-C7五个stage的特征,其中C6是从C5直接施加3x3/2的Conv操作得到,C7是从C6直接施加3x3/2的Conv操作得到。FPN融合后得到P3-P7,其中P6、P7直接等于C6、C7,P5是先经过1x1Conv,再经过3x3Conv得到,P3-P4均是先经过1x1Conv,再融合上一层2xUpsample的特征,再经过3x3Conv得到。具体过程可以看上图。

可以看出,RetinaNet基本与Faster/Master/Cascade RCNN中的FPN一脉相承。只是利用的stage的特征略有差别,Faster/Master/Cascade RCNN利用了高分辨率低语义的C2,RetinaNet利用了更低分辨率更高语义的C7。其他都是细微的差别。

c)Yolov3中的FPN

Yolov3中的FPN与上述两个有比较大的区别。首先,Yolov3中的FPN只利用到了C3-C5三个stage的特征;其次,从C5征到P5特征,会先经过5层Conv,然后再经过一层3x3Conv;最后,C3-C4到P3-P4特征,上一层特征会先经过1x1Conv+2xUpsample,然后先与本层特征concatenate,再经过5层Conv,之后经过一层3x3Conv。看图最清楚。

可以看图仔细对比Yolov3与Faster/Master/Cascade RCNN以及RetinaNet细节上的区别。

3)简单双向融合

FPN自从提出来以后,均是只有从上向下的融合,PANet是第一个提出从下向上二次融合的模型,并且PANet就是在Faster/Master/Cascade RCNN中的FPN的基础上,简单增了从下而上的融合路径。看下图。

4)复杂的双向融合

PANet的提出证明了双向融合的有效性,而PANet的双向融合较为简单,因此不少文章在FPN的方向上更进一步,尝试了更复杂的双向融合,如ASFFNAS-FPNBiFPN

ASFF
ASFF(论文:Learning Spatial Fusion for Single-Shot Object Detection)作者在YOLOV3的FPN的基础上,研究了每一个stage再次融合三个stage特征的效果。如下图。其中不同stage特征的融合,采用了注意力机制,这样就可以控制其他stage对本stage特征的贡献度。

NAS-FPN和BiFPN
NAS-FPN和BiFPN,都是google出品,思路也一脉相承,都是在FPN中寻找一个有效的block,然后重复叠加,这样就可以弹性的控制FPN的大小。


其中BiFPN的具体细节如下图。

Recursive-FPN
递归FPN是此文写作之时前两周刚刚新出炉的(原论文是DetectoRS: Detecting Objects with Recursive Feature Pyramid and Switchable Atrous Convolution),效果之好令人惊讶,使用递归FPN的DetectoRS是目前物体检测(COCO mAP 54.7)、实体分割和全景分割的SOTA,太强悍了。

递归FPN理解起来很容易,就是将传统FPN的融合后的输出,再输入给Backbone,进行二次循环,如下图。

下图给出了FPN与Recursive-FPN的区别,并且把一个2层的递归FPN展开了,非常简单明了,不做过多介绍。

5)M2det中的SFAM

M2det中的SFAM,比较复杂,它是先把C3与C5两个stage的特征融合成一个与C3分辨率相同的特征图(下图中的FFM1模块),然后再在此特征图上叠加多个UNet(下图中的TUM模块),最后将每个UNet生成的多个分辨率中相同分辨率特征一起融合(下图中的SFAM模块),从而生成最终的P3、P4、P5、P6特征,以供检测头使用。具体如下图。

每一个模块的详细细节如下图。

思考

FPN的优化会显著带来物体检测的性能提升,当前最好的FPN是递归FPN,期待将来更有效的FPN出现。

最近Facebook出了一篇文章object detection by transformer,如果transformer与各种强大的FPN结合,效果如何还是值得期待。

欢迎扫码关注同名微信公众号「小纸屑」,解密AI大骗局。

参考文献

  1. SSD: Single Shot Multibox Detector
  2. Faster RCNN: Towards Real-Time Object Detection with Region Proposal Networks
  3. Mask RCNN
  4. Yolov3: An Incremental Improvement
  5. RetinaNet: Focal Loss for Dense Object Detection
  6. Cascade RCNN: Delving into High Quality Object Detection
  7. PANet: Path Aggregation Network for Instance Segmentation
  8. ASFF: Learning Spatial Fusion for Single-Shot Object Detection
  9. NAS-FPN: Learning Scalable Feature Pyramid Architecture for Object Detection
  10. BiFPN: (EfficientDet: Scalable and Efficient Object Detection)
  11. DetectoRS: Detecting Objects with Recursive Feature Pyramid and Switchable Atrous Convolution
  12. SFAM(M2det: A single-shot object detector based on multi-level feature pyramid network)
### YOLOv5 中多尺度检测层的实现与用法 YOLOv5 的多尺度检测机制是一种提升模型鲁棒性和精度的重要技术。它通过引入多个特征图来捕捉不同大小的目标,从而显著提高了对小目标和复杂场景的检测效果。 #### 1. 多尺度检测的核心概念 多尺度检测的思想来源于早期的 YOLO 版本以及后续改进版本(如 YOLOv3)。在 YOLOv3 中,网络被分为三个不同的检测头,分别对应高分辨率、中等分辨率和低分辨率的特征图[^3]。这种设计使得模型能够更有效地处理从小到大的各类目标。而 YOLOv5 则进一步优化了这一架构,采用了一种更加灵活的方式来进行多尺度融合。 #### 2. YOLOv5 的多尺度检测实现 YOLOv5 使用 **FPN (Feature Pyramid Network)** 和 **PANet (Path Aggregation Network)** 来构建其多尺度检测框架。具体来说: - FPN 负责自顶向下的特征提取,将深层的语义信息传递给浅层特征。 - PANet 增加了一个自底向上的路径聚合模块,用于增强浅层特征的空间细节信息。 这些操作共同作用于输入图像的不同层次特征上,最终形成一个多尺度的特征金字塔结构。以下是其实现的关键点: ##### (1)骨干网络输出 YOLOv5 骨干网络会生成三组主要的特征图,通常表示为 `C3`、`C4` 和 `C5`,它们分别对应不同尺寸的特征映射: - `C3`: 较高的空间分辨率,适合检测小型物体。 - `C4`: 中间分辨率,适用于中型物体。 - `C5`: 较低的空间分辨率,擅长捕获大型物体。 ##### (2)颈部结构 YOLOv5 的颈部结构负责连接骨干网和头部预测器。该部分实现了跨尺度的信息交互,主要包括以下几个组件: - **Upsample**: 将高层特征图放大至较低层的尺寸,以便进行拼接。 - **Concatenate**: 把放缩后的高层次特征与对应的低层次特征沿通道维度拼接起来。 - **Convolutional Layers**: 对拼接后的特征施加卷积运算以减少冗余并加强表达能力。 例如,在代码层面可以通过如下方式定义 Upsample 层: ```python import torch.nn as nn class UpSample(nn.Module): def __init__(self, scale_factor=2, mode='nearest'): super(UpSample, self).__init__() self.scale_factor = scale_factor self.mode = mode def forward(self, x): return nn.functional.interpolate(x, scale_factor=self.scale_factor, mode=self.mode) ``` ##### (3)头部预测 经过上述过程得到的新特征集合会被送入检测头完成最终的任务——即边界框回归和类别分类。对于每一个尺度而言,都会独立执行这样的计算流程。 #### 3. 应用实例分析 为了验证多尺度策略的有效性,《多尺度YOLOv5的交通灯检测算法》一文中对比测试了标准版 YOLOv5 和加入额外调整后的 MS-YOLOv5 在逆光环境下的表现情况。实验结果显示后者具有更强适应能力和更高的准确性 Fig. 6 Detection results of YOLOv5 and MS-YOLOv5 in backlit scenes [^1]. 此外,《YOLOv5目标检测算法的原理、网络结构及其在实际应用中的优化方法》也提到过适当调节锚盒参数可以帮助改善特定领域内的识别质量 [^2]. --- ###
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值