目标检测网络的感性认识(二)之演进之路Fast-RCNN与Faster-RCNN

目录

 

Fast-RCNN

Faster RCNN


Fast-RCNN

依照之前的记录,Fast RCNN是RCNN的作者,继续的改进。

相对于SPPnet的改进,一个是ROI Pooling层的提出,一个是多任务网络的使用(softmax classifier)。

首先,要说的是,Fast RCNN同样也吸收了SPPnet的共享卷积的策略,只不过不是用层的SPP而是ROI pooling,来得到FC层的固定输入。其次,在候选框提取的过程中,依然采用了选择性搜索的策略(这会导致网络的搜索过程不是一个完整的端到端的过程)。

PS:再多说一句,那Faster RCNN相比于Fast RCNN网络的改进,就是RPN网络的提出。使得目标检测的过程由一个完整的深度学习的网络来完成。 

ROI Pooling层:

属于Pooling层的一种,作用就是,从featuremap上抠取proposal的过程,然后resize(通常采用特定的pooling的操作来完成)到统一的大小。 

 需要注解的是:步骤1中,因为输入到ROI里的数据并不是原始的图像,而是,整张原图(跟RCNN又不同了,这里是对原图进行卷积,再从这个里面框选区域进行ROI Pooling的输入)的经过卷积之后的一个featuremap,所以,需要找到ROI区域对于的featuremap的对应位置。然后,将得到的这个位置抠取出来,然后,进行步骤2。

这样就能保证ROI Pooling 作用于不同大小的输入可以得到相同大小的输出,用于后续FC层的计算。

Fast RNN性能的提升:

缺点:候选区域的筛选和提取,即在主要体现在选择性搜索上。

输入图像先过CNN网络,再经过选择搜索的策略,得到ROI输入,经过ROI得到FC层的输入,FC层再分别用于分类和回归。

而在这个过程中,选择性搜索需要对图像进行选择,分割,合并,过程耗时,那不用这个方法,用什么方法找到候选框呢?那这也就是后续网络提出RPN的契机。RPN就是代替选择性搜索的这个环节来进行的。

 

 

Faster RCNN

基于之前的介绍,最引入关注的计算RPN(Region Proposal Network)的环节。

完成了端到端的检测。

Faster RCNN的提出,意味着深度学习目标检测的基本框架的完成,后续的版本,可以针对Conv层主干网络等其他方面进行改进。

 

 

RPN网络的主要任务分为粗分类和粗定位。这个过程是通过Anchor机制来实现的。

在RPN网络中,会通过一个滑动窗口(通常是3*3),通过这个窗口同样通过(3*3)的卷积核来进行卷积,这样之后,就可以得到一个固定长度的特征向量,接下来通过两个FC层(cls layer和reg layer)进行回归和分类。

anchor 指的就是,对于每个滑动窗口,它的中心点,我们都会作为一个anchor,每个anchor点作为滑动窗口的中心点,以anchor为中心点,分别从原始图像中找到这样的不同尺寸(默认为9个尺寸)的窗口,认为这个不同尺寸的窗口,经过Pooling后,就可以足够映射到3*3的区域上。

换句话说,通过anchor来找到原始图像和3*3的featuremap窗口大小的对应关系。具体点形容,如果一个图的尺寸是w*h,规定每个anchor对应9个尺寸,那么最后得到的待分析的,proposal个数就是w*h*9(注意,anchor是每个像素都遍历到的),再对这么多的proposal,进行类别的判断和候选框位置的回归并得到后续的ROI位置,作为后续ROI pooling的输入。

 

 

 

 

 

 

 

 

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值