Fast RCNN论文的概括理解

论文题目:Fast R-CNN

论文地址:https://arxiv.org/abs/1504.08083

理解fast之前需要线理解SPP,SPP的论文题目:Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 

地址http://arxiv.org/abs/1406.4729

SPP的中文意思是空间金字塔池化,一般的池化层的输出与输入是相关的,比如200*200、100*100的特征图进过2*2的池化后的尺寸分别是100*100,50*50。

SPP的作用是不管输入的尺寸是多少,输出都是固定的。

 

 

最右边的白框是不管输入的特征图的尺寸是多大,每个特征图只输出一个值;中间的绿色的2*2的意思是不管输入的特征图的尺寸是多大,将每个特征图分成2*2个矩阵,每个矩阵里面取一个值;最左边的蓝色的4*4的意思是不管输入的特征图的尺寸是多大,将每个特征图分成4*4个矩阵,每个矩阵里面取一个值;

所以不管特征图的尺寸是多大,每一个特征图经过SPP以后都只产生1+4+16维的特征。

因为RCNN对SS提取出来的2000多个候选框都需要进过CNN来4096维提取特征,对于一张图片提取出来的2000多个4096维数据包含大量的计算冗余。fast每张图片只提取一次特征,SS选出来的候选框的特征可以通过其在原图中的位置映射到最后的特征层,但是SS选出来的候选框大小不一,在特征层对应的

特征的尺寸肯定也会大小不一,为了让所有的候选框产生相同的输出特征,在最后加上一个SPP层,这样不管候选框的尺寸是多少,最终产生的特征的尺寸都是一样大的。但是fast里面不是叫SPP,而是叫ROI,其实差不多。提取出来的特征在进行分类与bbox的修正,fast里面的分类不是采用SVM,而是采用的softmax。

 

具体细节请看原文。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值