简介物体检测从RCNN到Mask RCNN的网络构型变化

最新推荐文章于 2024-08-12 17:02:43 发布

海上的独木舟

最新推荐文章于 2024-08-12 17:02:43 发布

阅读量1.1w

点赞数 5

分类专栏：物体检测文章标签：物体检测神经网络

本文链接：https://blog.csdn.net/PhDat101/article/details/53000036

版权

物体检测专栏收录该内容

1 篇文章 0 订阅

订阅专栏

这篇主要介绍Object Detection一些经典的网络结构。顺序是RCNN->SPP->Fast RCNN->Faster RCNN->YOLO->SSD->YOLO2->Mask RCNN。这里只粗糙地介绍网络构型变化。更多细节强烈推荐阅读原文。

1. RCNN

核心思想包含在这幅图中：早期思想的典型代表，分段式处理每一个环节，输入图像首先使用selective search之类的方法选出2000个大小不一、形状多样的region proposals，统一缩放到指定尺寸（warp，这就是个很大的问题，另一种操作是crop，这些操作会让图像扭曲或不完整），对这些图片使用CNN提取特征然后分类。

2.SPP-net

SPP的全称是Spatial Pyramid Pooling，意思很直观，主要为了解决RCNN的那个缩放问题。思路也是比较巧妙：

首先考虑为什么RCNN要把图像规整为固定大小？因为后边的全连接层是固定的，而前边的卷积层会因为图片尺寸不一致，输出尺寸也不一样，和全连接层就接不上了。那就只对region proposals映射在的feature map的区域做pooling（也就是图中的window中做pooling），这个区域定了之后做SPP，与一般的pooling不一样的是：一般的pooling是规定好的receptive field，SPP是先定“需要几个卷积滤波器”，然后计算receptive field的尺寸，每层都这样，然后就获得了固定尺寸的输出，然后就与通常的全连接层接上了。并且SPP分享了不同region proposals的权值，只需要做一次前向卷积，所以比RCNN很省时间。

3. Fast RCNN

SPP与RCNN的底层一样：都是必须使用selective search之类的方法先选出一些区域再谈后续的处理。而selective search之类的方法不是很给力，主要是速度慢，于是Fast RCNN就考虑抛开这一步。

如图所示，FRCNN训练的时候输入是image和ground truth bounding boxs，经过常规的CNN到feature map层并且b-box会有对应的区域，对这个区域也是用SPP类似的处理（只有单个尺度的SPP，文中起名字ROI pooling），这之后就把特征映射为固定尺寸，然后就可以正常连接全连接层了！经过全连接层，直接分为两路执行多目标训练，一路是模仿分类，另一路是模仿b-box的位置，作者精心设计了loss函数。

4. Faster RCNN

Fast RCNN和SPP在feature maps上的处理本质相同：都需要根据输出结果重新计算一个合适receptive field，对硬件来说不是一个固定尺寸的数据流，速度打折扣。Faster RCNN提出了一种新的多尺度方法：

一般的多尺度是缩放图像（a），SPP的类的多尺度是改变receptive field（b），这个新的多尺度（c）是：在feature maps上规定几个不同形状的框（anchor box），这些框反射会图像中是有固定尺寸大小的，达到多尺度的目的。于是Faster RCNN的主要思路：

首先是一个region proposal单独判断的旁路（左图），常规的CNN后在feature map上加全连接层（中图），针对每个anchor box都评价对应图片中有无物体以及预测b-box的坐标是什么，当然需要设计精良的loss函数，把分类问题和位置判断全变成回归问题。后续的分类旁路就是和Fast R-CNN一样了。另外基础的网络都是使用现有的VGG16、ZF等，只是微调。

5. YOLO

这个名字很有意思（You Only Look Once），这个方法更加暴力。直接使用离散化思想：一个图片中的物体不会很多，把图片分成有限个数的格子，物体中心会落到某一个格子中，这个格子对这个物体负责即可，直接在格子的基础上映射出物体的分类和位置，非常的end-to-end。示意图如下：