图像金字塔
参考:
https://www.jianshu.com/p/436e96200f80
图像金字塔是图像多尺度表达的一种,是一种以多分辨率来解释图像的有效但概念简单的结构。一幅图像的金字塔是一系列以金字塔形状排列的分辨率逐步降低,且来源于同一张原始图的图像集合。其通过梯次向下采样获得,直到达到某个终止条件才停止采样。我们将一层一层的图像比喻成金字塔,层级越高,则图像越小,分辨率越低。
在OpenCV中,有关图像金字塔的操作有pyrup()和pyrdown(),分别用来完成上采样和下采样,其实在OpenCV中有关于图片缩放的更直接的函数,即resize()。
图像金字塔分为两类:高斯图像金字塔和拉普拉斯图像金字塔
高斯金字塔是通过高斯平滑(用高斯函数生成的核进行滤波)和亚采样(通过对进行过高斯平滑处理的图像进行隔行隔列采样而得到)获得一些列下采样图像,也就是说第K层高斯金字塔通过平滑、亚采样就可以获得K+1层高斯图像,每层是按从下到上编号的。
高斯金字塔的上采样和下采样是非线性处理,是不可逆的有损处理,因此,如果下采样后的图像想还原回原来的尺寸的话会丢失很多信息,使图片变得模糊,为了解决这个问题,需要提前保存因下采样而造成的缺失信息,拉普拉斯金字塔可以近似地做到这一点。
FPN
参考:
https://zhuanlan.zhihu.com/p/92005927
为解决目标检测在处理多尺度变化问题时的不足,现在的很多网络都使用了利用单个高层特征(比如说Faster R-CNN利用下采样四倍的卷积层——Conv4,进行后续的物体的分类和bounding box的回归),但是这样做有一个明显的缺陷,即小物体本身具有的像素信息较少,在下采样的过程中极易被丢失,为了处理这种物体大小差异十分明显的检测问题,经典的方法是利用图像金字塔的方式进行多尺度变化增强,但这样会带来极大的计算量。所以提出了特征金字塔的网络结构,能在增加极小的计算量的情况下,处理好物体检测中的多尺度变化问题。
特征金字塔 Feature Pyramid Networks
为了解决之前三种结构的不足之处,这篇论文提出了FPN,即使每一层不同尺度的特征图都具有较强的语义信息。
这种网络结构,能够在增加较少计算量的前提下融合低分辨率语义信息较强的特征图和高分辨率语义信息较弱但空间信息丰富的特征图。
其实在这篇论文之前,也有人提到得出一张既具有高分辨率又具有较强语义信息的特征图进行预测,但FPN的独特之处在于,它是在以特征金字塔为基础结构上,对每一层级的特征图分别进行预测。