FPN
featurized image pyramid:
针对检测不同尺度的图片会将图片缩放为不同的尺度
问题:
生成多少个尺度就要重新去预测多少次,效率低
single feature map:
高斯金字塔 标准的fast-rcnn流程
将图片通过backbone得到最终特征图,在最终特征图上进行预测
问题:
小目标预测效果差
pyramidal feature hierarchy:
类似于ssd
一张图片输入给backbone,在正向传播的特征图上分别去进行预测
Fpn结构:
并不是简单的图像在backbone 上进行特征预测,而是将不同特征图的特征进行融合,融合后的特征图再进行一个预测,有助于提升网络效果
如何融合:
针对每一个backbone都会使用一个1*1的卷积层(调整backbone上不同特征图的channel,保证相同的shape)进行一个特征图的处理
特征图都是进行2的整数倍进行提取28*28 -> 14*14 ->7*7,融合前,针对上面的特征图进行上采样:
7*7 (二倍上采样)-> 14*14 28*28(1*1卷积)-> 14*14 变为一样的shape
二倍上采样实现过程:
临近插值算法
Faster-rcnn视作 rpn+fast-rcnn
Proposal:区域建议,从图中初步预测的rew有目标存在的区域=候选框
通过rpn结构在p2-p6上进行proposal预测,将结果映射到p2-p5上,再通过faster-rcnn得到预测结果