Fast-RCNN简析

一、RCNN

RCNN为Fast-RCNN的基础,发表于2014年,是首度使用深度学习神经网络进行目标检测的算法。论文名字:Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation

1、特征提取

相比于SIFT和HOG特征它提取,RCNN采用selective search后输入Alexnet,特征维度大大减少。

selective search--不关心特定的区域,即从输入图片中随机提取出2000个大小不同的检测框:

然后将检测框输入到网络中。因为Alexnet的输入图片大小固定为227*227,所以每个检测框被暴力resize,无视原来的形状和大小,统一变化到227*227,也就是会有2000*227*227大小的输入进入Alexnet:

Alexnet原本是做图像分类的任务,共有八层网络。五个卷积层,三个全连接层,最后一层全连接层输入输出为4096*1000。

RCNN去掉了原本的最后一层,网络最终输出为2000*4096的特征向量,特征维度4K。

2、SVM分类

SVM是一种二分类法,一个SVM分类器的结果为Positive(包含该物体)和Negative(不包含物体)。

假设最后的分类结果为N类。经过特征提取后的2000*4096大小的特征向量会被SVM分类为2000*N大小的向量,每个值代表当前框在第Ni的类别上的分数。

特征区域可理解为候选区域,起到目标物体localization的作用。候选区域大小不同,区域不同,彼此之间有很多重叠和包含。为了剔除重叠的部分,采用非极大值抑制算法,利用有最高分数的候选区域,筛选掉重合的特征框。

3、训练过程

RCNN提出了一种迁移学习的神经网络训练方法,首先在大型数据集上训练Alexnet网络,使之具有良好收敛性,得到pre-training网络,然后去掉Alexnet最后一层,换用针对性较强的数据集重新训练出4096维度的特征向量。前者称之为pre-tune,后者为fine-tune。这样的好处是弥补缺乏大量具有标注数据的训练集的缺陷,只需要少量数据集标注后进行fine-tune,同样可以实现较好的定位功能。

R-CNN在PASCAL VOC 2012数据集上的表现,好与当时的绝大部分网络:

R-CNN的不足之处在与检测速度太慢,一张图片需要10s以上。

 

二、Fast-RCNN

Fast-RCNN提高了训练和测试速度,输入图片不再做selective research,而是直接输入网络,这样既加快了特征提取的速度,又节省了存储空间。Fast-RCNN由同一个作者在2015年提出,论文名字:Fast R-CNN,作者本人官网页面上有论文链接。rgb's home page

1、ROI pooling

目标检测通常分为两个阶段,第一个阶段是给定一张图片找出所有可能存在object的位置,得到多个bounding box,称为region proposal,这一过程使用selective research等方法;第二个阶段是确认上一阶段的每个region proposal属于哪个目标或背景,也就是计算score。ROI pooling层实现简化和加速这一过程。

过程如下:

给定一张图片经过神经网络提取特征后的feature map,划分出多个region proposal,然后对每个region proposal做最大池花,得到固定大小的新的feature map,然后将多个大小相同的feature map再输入下一网络

 

ROI Pooling就是将大小不同的feature map池化成大小相同的feature map,利于输出到下一层网络中去。

2、特征提取

Fast-RCNN首先将整张图片输入到VGG-16网络中,VGG-16网络的最后一层池化层被ROI pooling层代替。于此同时,selective reaseach划定的2000个区域也经过特定的关系转化为对应特征图的坐标,在feature map上截取出region proposal,经过ROI pooling特征提取,最后输入到全连接网络中。

3、损失函数

全连接层分出两个分支,一个是softmax层,输出k+1个分类(k种类别+一个背景类);另一个分支是regression,预测输出每个框关于k个类别的预测分数。

Fast-RCNN没有使用SVM进行分类,而是使用损失函数来收敛全连接层输出结果。

对应的损失函数主体为预测框位置和真实框位置相减

 

 

 

参考如下:

https://www.jianshu.com/p/c1696c27abf8

https://www.jianshu.com/p/fbbb21e1e390

https://blog.csdn.net/briblue/article/details/82012575

https://www.cnblogs.com/dxscode/p/11443752.html

 

 

 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值