R-CNN

Hui_chen*

于 2021-03-14 12:08:07 发布

阅读量186

点赞数

本文链接：https://blog.csdn.net/qq_42980111/article/details/109687916

版权

R-CNN它可以说是第一个成功将深度学习应用到目标检测上的算法
算法思路：
1.给定一幅图片，然后在图像中确定好大约2000张候选区域
2.将每个候选区域固定大小然后输入进CNN网络中去来进行特征向量的提取
3.将提取到的特征值输入给预先训练好的一组SVM分类器，识别出区域中的目标
4.使用回归器调整候选区域

   候选区域生成        
  使用一种过分割手段，将图像分割成小区域查看现有小区域，合并可能性最高的两个区域。重复直到整张图像合并成一个区域位置输出所有曾经存在过的区域，所谓候选区域

**减少预选框的数量使用NMS（非极大值抑制）
精修位置：BBox Regression
要先提取建议框，之后提取每个建议框CNN特征，再用SVM分类，做非极大值抑制，最后做bounding-box回归才能得到图片中物体的种类以及位置信息；同样训练过程也很复杂，ILSVRC 2012上预训练CNN，PASCAL VOC 2007上微调CNN，做20类SVM分类器的训练和20类bounding-box回归器的训练；这些不连续过程必然涉及到特征存储、浪费磁盘空间等问题
最大的缺点是对一张图片的处理速度慢，这是由于一张图片中由selective search算法得出的约2k个建议框都需要经过变形处理后由CNN前向网络计算一次特征，这其中涵盖了对一张图片中多个重复区域的重复计算
**
在这里插入图片描述

FAST R-CNN
缺点：R-CNN的缺点是计算量大。R-CNN流程较多，包括region proposal的选取，训练卷积神经网络（softmax classifier，log loss），训练SVM（hinge loss）和训练 regressor（squared loss），这使得训练时间非常长（84小时），占用磁盘空间也大。
Fast-RCNN
在这里插入图片描述

相比R-CNN，主要两处不同:
(1)最后一层卷积层后加了一个ROI pooling layer；
(2)损失函数使用了多任务损失函数(multi-task loss)，将边框回归直接加入到CNN网络中训练
改进:
(1) 测试时速度慢：R-CNN把一张图像分解成大量的建议框，每个建议框拉伸形成的图像都会单独通过CNN提取特征.实际上这些建议框之间大量重叠，特征值之间完全可以共享，造成了运算能力的浪费.
FAST-RCNN将整张图像归一化后直接送入CNN，在最后的卷积层输出的feature map上，加入建议框信息，使得在此之前的CNN运算得以共享.
(2) 训练时速度慢：R-CNN在训练时，是在采用SVM分类之前，把通过CNN提取的特征存储在硬盘上.这种方法造成了训练性能低下，因为在硬盘上大量的读写数据会造成训练速度缓慢.
FAST-RCNN在训练时，只需要将一张图像送入网络，每张图像一次性地提取CNN特征和建议区域，训练数据在GPU内存里直接进Loss层，这样候选区域的前几层特征不需要再重复计算且不再需要把大量数据存储在硬盘上.
(3) 训练所需空间大：R-CNN中独立的SVM分类器和回归器需要大量特征作为训练样本，需要大量的硬盘空间.FAST-RCNN把类别判断和位置回归统一用深度网络实现，不再需要额外存储.
(4) 由于ROI pooling的提出，不需要再input进行Corp和wrap操作，避免像素的损失，巧妙解决了尺度缩放的问题.
卷积不再是对每个region proposal进行，而是直接对整张图像，这样减少了很多重复计算。原来RCNN是对每个region proposal分别做卷积，因为一张图像中有2000左右的region proposal，肯定相互之间的重叠率很高，因此产生重复计算。2、用ROI pooling进行特征的尺寸变换，因为全连接层的输入要求尺寸大小一样，因此不能直接把region proposal作为输入。3、将regressor放进网络一起训练，每个类别对应一个regressor，同时用softmax代替原来的SVM分类器
Fast R-CNN的主要创新点有：将最后一个卷积层的SSP Layer改为RoI Pooling Layer；另外提出了多任务损失函数(Multi-task Loss)，将边框回归直接加入到CNN网络中训练，同时包含了候选区域分类损失和位置回归损失。
ROI池化层前面的网络层是对整幅图像提取特征得到多个Feature Map
训练的过程：
输入是224*224，经过5个卷积层和2个降采样层（这两个降采样层分别跟在第一和第二个卷积层后面）后，进入ROIPooling层，该层是输入是conv5层的输出和region proposal，region proposal的个数差不多2000。然后再经过两个都是output是4096的全连接层。最后分别经过output个数是21和84的两个全连接层（这两个全连接层是并列的，不是前后关系），前者是分类的输出，代表每个region proposal属于每个类别（21类）的得分，后者是回归的输出，代表每个region proposal的四个坐标。最后是两个损失层，分类的是softmaxWithLoss，输入是label和分类层输出的得分；回归的是SmoothL1Loss，输入是回归层的输出和target坐标及weight。
算法步骤：