SPP-net中的spatial pyramid pooling

原文传送门:https://www.jianshu.com/p/884c2828cd8e

本篇主要简述SPP中的spatial pyramid pooling,力求简单明了,一看就懂。

论文地址:[1406.4729] Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognitio

spp提出的初衷是为了解决CNN对输入图片尺寸的限制。由于全连接层的存在,与之相连的最后一个卷积层的输出特征需要固定尺寸,从而要求输入图片尺寸也要固定。spp-net之前的做法是将图片裁剪或变形(crop/warp),如下图所示


图1 cropping or warping

crop/warp的一个问题是导致图片的信息缺失或变形,影响识别精度。对此,文章中在最后一层卷积特征图的基础上又进一步进行处理,提出了spatial pyramid pooling,如图2所示:


图2 crop/warp vs spp

空间金字塔池化(spatial pyramid pooling)的网络结构如下图:


图3 spp structure

简而言之,即是将任意尺寸的feature map分别切分成16、4、1份,再对每一份进行池化操作,将池化后的结果拼接得到固定长度的特征向量(图中的256为filter的个数),送入全连接层进行后续操作。

后来的Fast RCNN网络即借鉴了spp的思想。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值