问题
在计算机视觉中,识别不同尺度的物体是一个基本的挑战。
解决思路
特征图像金字塔(Featurized image pyramid,如下图)是传统解决思路,在需要检测不同尺度的物体的时候,将图片缩放到不同尺度,针对每个尺度依次通过算法进行预测,缺点是生成了多少个不同的尺度的图片,就要做多少次预测,效率低下。
Faster R-CNN中的做法(Single feture map ,如下图),在图片通过主干网络后,得到最终的特征图,在最终的这个特征图上进行预测,缺点是针对小目标检测效果不佳。
SSD中的做法( Pyramidal feature hierarchy,如下图),在图片通过主干网络后得到不同尺度的特征图后,在不同尺度的特征图上分别进行预测。
FPN( Feature Pyramid Network)结构中,将主干网络得到的不同尺度的特征图进行了融合,在融合之后的特征图上进行预测。