Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition（SPP-NET）总结

最新推荐文章于 2024-08-22 11:56:04 发布

Robin C

最新推荐文章于 2024-08-22 11:56:04 发布

阅读量102

点赞数

分类专栏：检测

本文链接：https://blog.csdn.net/qq_38423499/article/details/103937570

版权

1 篇文章 0 订阅

订阅专栏

网络总结

spatial pyramid pooling网络可以适应任何大小的图片,而R-CNN就得固定大小了,要经过一些crop，或者warp的操作(我才知道这中操作是用来固定大小的),但是或导致图片变形.
SPP-net是将整张图片送入卷积网络中，在最后的卷积层后面，开始提取不同的子图（暂且这么称呼，反正就是在截取子图）。然后加入了spatial pyramid pooling layer(空间金字塔池化层，好玄妙的名字！)，使得不同尺寸的图片都会得到一个同样的输出。
　　之所以上面可以这么干（先卷积，后切子图）是因为：输入图片的局部位置的特征反应在特征图上也是在相同位置。比如一只猫在图片的左上角。那么这张图片的特征图，猫的特征也位于特征图的左上角。
　　R-CNN切子图的位置位于卷积之前,因而需要对大量的子图进行卷积,很浪费时间,下面这张图就画的很到位,第一行是R-CNN,第二行是SPP-NET.

关注

专栏目录