网络总结
-
spatial pyramid pooling网络可以适应任何大小的图片,而R-CNN就得固定大小了,要经过一些crop,或者warp的操作(我才知道这中操作是用来固定大小的),但是或导致图片变形.
-
SPP-net是将整张图片送入卷积网络中,在最后的卷积层后面,开始提取不同的子图(暂且这么称呼,反正就是在截取子图)。然后加入了spatial pyramid pooling layer(空间金字塔池化层,好玄妙的名字!),使得不同尺寸的图片都会得到一个同样的输出。
之所以上面可以这么干(先卷积,后切子图)是因为:输入图片的局部位置的特征反应在特征图上也是在相同位置。比如一只猫在图片的左上角。那么这张图片的特征图,猫的特征也位于特征图的左上角。
R-CNN切子图的位置位于卷积之前,因而需要对大量的子图进行卷积,很浪费时间,下面这张图就画的很到位,第一行是R-CNN,第二行是SPP-NET.
参考链接
https://blog.csdn.net/tinyzhao/article/details/53717136
https://blog.csdn.net/v1_vivian/article/details/73275259