目标检测网络的感性认识（二）之演进之路Fast-RCNN与Faster-RCNN

最新推荐文章于 2022-06-25 17:42:07 发布

恋蛩音

最新推荐文章于 2022-06-25 17:42:07 发布

阅读量172

点赞数

本文链接：https://blog.csdn.net/qq_17846375/article/details/97647044

版权

Object _Detection_by_Deeplearn 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

Fast-RCNN

Faster RCNN

Fast-RCNN

依照之前的记录，Fast RCNN是RCNN的作者，继续的改进。

相对于SPPnet的改进，一个是ROI Pooling层的提出，一个是多任务网络的使用（softmax classifier）。

首先，要说的是，Fast RCNN同样也吸收了SPPnet的共享卷积的策略，只不过不是用层的SPP而是ROI pooling,来得到FC层的固定输入。其次，在候选框提取的过程中，依然采用了选择性搜索的策略（这会导致网络的搜索过程不是一个完整的端到端的过程）。

PS：再多说一句，那Faster RCNN相比于Fast RCNN网络的改进，就是RPN网络的提出。使得目标检测的过程由一个完整的深度学习的网络来完成。

ROI Pooling层：

属于Pooling层的一种，作用就是，从featuremap上抠取proposal的过程，然后resize（通常采用特定的pooling的操作来完成）到统一的大小。

需要注解的是：步骤1中，因为输入到ROI里的数据并不是原始的图像，而是，整张原图（跟RCNN又不同了，这里是对原图进行卷积，再从这个里面框选区域进行ROI Pooling的输入）的经过卷积之后的一个featuremap，所以，需要找到ROI区域对于的featuremap的对应位置。然后，将得到的这个位置抠取出来，然后，进行步骤2。

这样就能保证ROI Pooling 作用于不同大小的输入可以得到相同大小的输出，用于后续FC层的计算。

Fast RNN性能的提升：

缺点：候选区域的筛选和提取，即在主要体现在选择性搜索上。

输入图像先过CNN网络，再经过选择搜索的策略，得到ROI输入，经过ROI得到FC层的输入，FC层再分别用于分类和回归。

而在这个过程中，选择性搜索需要对图像进行选择，分割，合并，过程耗时，那不用这个方法，用什么方法找到候选框呢？那这也就是后续网络提出RPN的契机。RPN就是代替选择性搜索的这个环节来进行的。

Faster RCNN

基于之前的介绍，最引入关注的计算RPN（Region Proposal Network）的环节。

完成了端到端的检测。

Faster RCNN的提出，意味着深度学习目标检测的基本框架的完成，后续的版本，可以针对Conv层主干网络等其他方面进行改进。

RPN网络的主要任务分为粗分类和粗定位。这个过程是通过Anchor机制来实现的。

在RPN网络中，会通过一个滑动窗口（通常是3*3），通过这个窗口同样通过（3*3）的卷积核来进行卷积，这样之后，就可以得到一个固定长度的特征向量，接下来通过两个FC层（cls layer和reg layer）进行回归和分类。

anchor 指的就是，对于每个滑动窗口，它的中心点，我们都会作为一个anchor，每个anchor点作为滑动窗口的中心点，以anchor为中心点，分别从原始图像中找到这样的不同尺寸（默认为9个尺寸）的窗口，认为这个不同尺寸的窗口，经过Pooling后，就可以足够映射到3*3的区域上。

换句话说，通过anchor来找到原始图像和3*3的featuremap窗口大小的对应关系。具体点形容，如果一个图的尺寸是w*h，规定每个anchor对应9个尺寸，那么最后得到的待分析的，proposal个数就是w*h*9(注意，anchor是每个像素都遍历到的)，再对这么多的proposal，进行类别的判断和候选框位置的回归并得到后续的ROI位置，作为后续ROI pooling的输入。