对于尺寸相差较大的目标的识别,一直是计算机视觉中的一个重大挑战。
特征金字塔基于图像金字塔建立,特征金字塔具有尺度不变性因为物体的大小可以通过改变在金字塔中的层数来实现。这项性能使得一个模型通过在金字塔中扫描位置和层数来见测尺度规模跨度较大的一系列物体。作者提出,将图像金字塔每一层特征化的主要优势在于可以产生一个所有层(包括高分辨率层)具有强语意信息的多尺度特征表示。
将图像金字塔每一层特征化会使得inference时间显著增加,而不适用于实际应用。在图像金字塔上训练更深的端到端网络收存储空间限制而不可行。由于这些原因,Fast和Faster RCNN没有用图像特征金字塔。
作者还指出,SSD为了避免利用低层特征而放弃了重复利用计算过的层并且从网络中的较高层建立金字塔并加上几个附加层。因此损失了重用特征层中高分辨率图片的机会。
针对这些,作者提出了利用卷积金字塔特征分层的优势同时建立一个在所有尺度有着强语意的特征金字塔。将低分辨率,强语意特征和高分辨率,弱语意特征通过自顶向下的路径和侧边连接结合,同时不牺牲表达强度,速度和所需空间。
上图给出了4种金字塔(特征图用蓝框标出,越粗的框表示越强的语意特征)。
(a)将图像做成不同的scale,然后不同scale的图像独立计算生成对应的不同scale的特征。这种方法的缺点在于增加了时间成本。
(b)最近的检测系统(如SPP net,Fast RCNN,Faster RCNN等)