我们知道CNN网络需要输入图片的尺寸保存一致,因为卷积层可以处理任意大小的图像,但全连接层需要固定尺寸的输入。由于Selective Search生成了不同大小的Region Proposals,不同尺寸的图像不能使用同样的CNN网络,因此R-CNN无法共享网络。
于是就有了SPP net
使用Spatial Pyramid Pooling Layer将不同尺寸的feature map汇集成具有固定大小的序列,让尺寸大的输入保留更多的信息,让尺寸小的输入保留较少的信息。
这里的256-d指的是filter的个数
将不同大小的特征图拼接到一起,产生一个固定大小的序列,接着就可以进行全连接操作了。这样一来,不同大小的Region Proposals可以使用同意的CNN网络了,达到了网络共享的目的。
SPP本身是做什么的呢?就是将不同尺寸的输入resize成为相同尺寸的输出
使用SPPNet的好处是不会因crop或warp使物体对象变形,影响识别精确度: