Fast-RCNN简析

最新推荐文章于 2023-12-01 08:56:18 发布

Polya_Xue

最新推荐文章于 2023-12-01 08:56:18 发布

阅读量941

点赞数

分类专栏： dl/ml

本文链接：https://blog.csdn.net/qq_31607947/article/details/114628167

版权

dl/ml 专栏收录该内容

28 篇文章 4 订阅

订阅专栏

一、RCNN

RCNN为Fast-RCNN的基础，发表于2014年，是首度使用深度学习神经网络进行目标检测的算法。论文名字：Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation

1、特征提取

相比于SIFT和HOG特征它提取，RCNN采用selective search后输入Alexnet，特征维度大大减少。

selective search--不关心特定的区域，即从输入图片中随机提取出2000个大小不同的检测框：

然后将检测框输入到网络中。因为Alexnet的输入图片大小固定为227*227，所以每个检测框被暴力resize,无视原来的形状和大小，统一变化到227*227，也就是会有2000*227*227大小的输入进入Alexnet:

Alexnet原本是做图像分类的任务，共有八层网络。五个卷积层，三个全连接层，最后一层全连接层输入输出为4096*1000。

RCNN去掉了原本的最后一层，网络最终输出为2000*4096的特征向量，特征维度4K。

2、SVM分类

SVM是一种二分类法，一个SVM分类器的结果为Positive(包含该物体）和Negative(不包含物体）。

假设最后的分类结果为N类。经过特征提取后的2000*4096大小的特征向量会被SVM分类为2000*N大小的向量，每个值代表当前框在第Ni的类别上的分数。

特征区域可理解为候选区域，起到目标物体localization的作用。候选区域大小不同，区域不同，彼此之间有很多重叠和包含。为了剔除重叠的部分，采用非极大值抑制算法，利用有最高分数的候选区域，筛选掉重合的特征框。

3、训练过程

RCNN提出了一种迁移学习的神经网络训练方法，首先在大型数据集上训练Alexnet网络，使之具有良好收敛性，得到pre-training网络，然后去掉Alexnet最后一层，换用针对性较强的数据集重新训练出4096维度的特征向量。前者称之为pre-tune,后者为fine-tune。这样的好处是弥补缺乏大量具有标注数据的训练集的缺陷，只需要少量数据集标注后进行fine-tune，同样可以实现较好的定位功能。

R-CNN在PASCAL VOC 2012数据集上的表现，好与当时的绝大部分网络：

R-CNN的不足之处在与检测速度太慢，一张图片需要10s以上。

二、Fast-RCNN

Fast-RCNN提高了训练和测试速度，输入图片不再做selective research，而是直接输入网络，这样既加快了特征提取的速度，又节省了存储空间。Fast-RCNN由同一个作者在2015年提出，论文名字：Fast R-CNN，作者本人官网页面上有论文链接。rgb's home page

1、ROI pooling

目标检测通常分为两个阶段，第一个阶段是给定一张图片找出所有可能存在object的位置，得到多个bounding box，称为region proposal，这一过程使用selective research等方法；第二个阶段是确认上一阶段的每个region proposal属于哪个目标或背景，也就是计算score。ROI pooling层实现简化和加速这一过程。

过程如下：

给定一张图片经过神经网络提取特征后的feature map，划分出多个region proposal，然后对每个region proposal做最大池花，得到固定大小的新的feature map，然后将多个大小相同的feature map再输入下一网络

ROI Pooling就是将大小不同的feature map池化成大小相同的feature map，利于输出到下一层网络中去。

2、特征提取

Fast-RCNN首先将整张图片输入到VGG-16网络中，VGG-16网络的最后一层池化层被ROI pooling层代替。于此同时，selective reaseach划定的2000个区域也经过特定的关系转化为对应特征图的坐标，在feature map上截取出region proposal，经过ROI pooling特征提取，最后输入到全连接网络中。

3、损失函数

全连接层分出两个分支，一个是softmax层，输出k+1个分类（k种类别+一个背景类）；另一个分支是regression，预测输出每个框关于k个类别的预测分数。

Fast-RCNN没有使用SVM进行分类，而是使用损失函数来收敛全连接层输出结果。

对应的损失函数主体为预测框位置和真实框位置相减

参考如下：

https://www.jianshu.com/p/c1696c27abf8

https://www.jianshu.com/p/fbbb21e1e390

https://blog.csdn.net/briblue/article/details/82012575

https://www.cnblogs.com/dxscode/p/11443752.html

Polya_Xue

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Fast-RCNN简析

一、RCNNRCNN为Fast-RCNN的基础，发表于2014年，是首度使用深度学习神经网络进行目标检测的算法。论文名字：Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation1、特征提取相比于SIFT和HOG特征它提取，RCNN采用selective search后输入Alexnet，特征维度大大减少。selective search--不关心特定的区域，即从输入图片中随机提取出200
复制链接

扫一扫