RCNN系列，从RCNN到fast-RCNN、faster RCNN、Mask RCNN

最新推荐文章于 2022-01-02 17:34:59 发布

Better-1

最新推荐文章于 2022-01-02 17:34:59 发布

阅读量291

点赞数

分类专栏：深度学习

本文链接：https://blog.csdn.net/caihuanqia/article/details/106434286

版权

深度学习专栏收录该内容

29 篇文章 2 订阅

订阅专栏

在这里插入图片描述

在这里插入图片描述

x、y是以真实值的中心为远点的坐标，w和h是预测框的长宽。先做平移再做缩放。输入P，映射之后的G‘尽可能接近真实的G。映射就是P+P*dp

在这里插入图片描述

注意！输入的RegionProposal→P=(Px,Py,Pw,Ph) RegionProposal→P=(Px,Py,Pw,Ph)，这个是什么？输入就是这四个数值吗？其实真正的输入是这个窗口对应的 CNN 特征，也就是 R-CNN 中的 Pool5 feature（特征向量）。 (注：训练阶段输入还包括 Ground Truth，也就是下边提到的t∗=(tx,ty,tw,th）

在这里插入图片描述

Fast RCNN

在这里插入图片描述
Fast RCNN主要有3个改进：1、卷积不再是对每个region proposal进行，而是直接对整张图像，这样减少了很多重复计算。原来RCNN是对每个region proposal分别做卷积，因为一张图像中有2000左右的region proposal，肯定相互之间的重叠率很高，因此产生重复计算。2、用ROI pooling进行特征的尺寸变换，因为全连接层的输入要求尺寸大小一样，因此不能直接把region proposal作为输入。3、将regressor放进网络一起训练，每个类别对应一个regressor，同时用softmax代替原来的SVM分类器。

在这里插入图片描述
网络的输入是图片和ROI的位置信息。

在这里插入图片描述

SPP Net（Fast Rcnn与SPP有联系）

在这里插入图片描述

在这里插入图片描述 SPP-Net在cov-5会输出256层特征图，每一层都做一次空间金字塔池化。先把每个特征图分割成多个不同尺寸的网格，比如网格分别为44、 22、1*1,然后每个网格做maxpooling，这样256层特征图就形成了16256，4256，1*256维特征， 它们连起来就形成了一个固定长度的特征向量，将这个向量输入到后面的全连接层。(简单地说就是划分网格，然后进行最大池化，网格的划分大小不同。)