图像多尺度特征融合、特征金字塔总结

最新推荐文章于 2025-04-03 11:47:04 发布

whetherfailbuttry

最新推荐文章于 2025-04-03 11:47:04 发布

阅读量3.9w

点赞数 46

文章标签：人工智能计算机视觉

本文链接：https://blog.csdn.net/qq_40602790/article/details/124079984

版权

参考链接：

https://blog.csdn.net/qq_36268755/article/details/106192524?spm=1001.2014.3001.5502
https://zhuanlan.zhihu.com/p/366646884

SPP、ASPP与PPM_我不是薛定谔的猫的博客-CSDN博客_ppm 和aspp

一、多尺度与特征融合

1.多尺度：可以简单理解为不同尺寸的图像，在不同尺寸下对图像进行采样，以及特征预测的效果不一样，大物体检测需要在低分辨率上较好，也就是深层特征，具有全局的感受野。小物体在底层高分辨率的预测较好，因为一些细节比如边缘在放大后预测的结果更好。

2.特征融合：分为早融合和晚融合。先进行特征融合，然后在结合预测，如skip-connecttion，concat和add操作，例如：Unet。晚融合，在预测的时候融合多个层的预测结果，如:FPN。（探究UNet和FPN的联系与差别）

3.Unet与FPN的差异：FPN是目标检测，Unet是分割，FPN要输出很多层，Unet只在最后一层，并且上采样方式不一样，一个是直接插值，一个是上卷可以优化参数。FPN的skip connection是做add，而unet是concat。

二、常用框架分类

(1) 多尺度输入。(2) 多尺度特征融合。(3) 多尺度特征预测融合。(4) 以上方法的组合。

1.多尺度输入：多个尺度的图像输入（图像金字塔），有点像Nvidia那个注意力机制，一般的是对多个尺度的预测结果结果进行平均或者Max or pooling等，改进：在输入加上注意力机制。

(2) 多尺度特征融合：第一种是并行多分支网络，第二种是串行的跳层连接结构.

a.并行多分支：

①使用不同大小的卷积核（Inception模块如下图）
②使用空洞卷积
③使用不同大小的池化，PSPnet，金字塔池化模块（如下图）

b.串行多分支：Unet（有skip-connection结构实现特征组合

(3) 多尺度特征和预测融合（也可以只有预测）：特征金字塔FPN，特征通过skip-connection传递，同时在每一层上采样的输出进行一个predict，综合各种尺度的特征预测。

三、特征金字塔系列

1、FPN（特征金字塔）

类似与Unet的结构，在目标检测中的一个模块，使用了skip-connection ，实现了多尺度特征融合和预测，是直接add相加

2、SPP（空间金字塔池化：目标检测）

何凯明大神提出的，解决RCNN中需要固定输入的图像尺寸，但是直接crop又会丢失一些信息。Fast-RCNN中的ROI pooling层实际上就是一种特殊的spatial pyramid pooling，它们思想是类似的，只是ROI pooling只用一种尺寸的网格来池化，而spatial pyramid pooling同时用了多种尺寸的网格。

3.PPM（空间金字塔池化：分割）：PSPNet网络提出的一个模块