R-CNN网络系列(2)

Fast R-CNN论文简单解读

引言

名称由来:Fast Region-based Convolutional Neural Network (Fast R-CNN)

秀肌肉:Fast R-CNN比R-CNN快9倍,在测试时快213倍,在PASCAL VOC 2012上实现了更高的66%的mAP,比R-CNN高4个点。与SPPnet相比,Fast R-CNN训练VGG16的速度快3倍,测试速度快10倍,并且更准确。单张图片处理仅需0.3秒(不包括生成候选框的时间)

正文

检测本质上是定位+分类。分类问题相对而言,较为简单;复杂的部分在于检测需要准确定位对象,这带来了两个主要挑战。
(1)必须处理大量候选对象位置(通常称为“proposals”)
(2)候选框仅能提供粗略的定位,必须对其进行精修以实现精确定位

这些问题的解决方案通常会影响速度、准确性或简单性。

Fast R-CNN简化了当时效果最好的基于 ConvNet 的目标检测器的训练过程,即提出了一种单阶段训练算法,该算法不仅对候选框分类,同时对候选框进行精修。

R-CNN的缺点

1、训练是多阶段的,比较繁琐。首先把ImageNet上面训练好的模型拿过来在目标检测的数据集上微调一下,其次训练SVM分类器,最后再学习边界框回归器(bounding-box regressors)
2、训练的时候占用空间多,速度慢。SVM分类器和边界框回归器需要的特征需要先存下来,一般会占用数百G的空间。提取特征使用的VGG16在VOC2007数据集上面需要2.5GPU-天
3、推理时间慢。使用VGG16,在GPU上面处理单张图片需要47秒

R-CNN慢就慢在处理候选对象的时候,一次只处理一个,没有共享计算。

SPPnet通过共享计算提高了R-CNN的处理速度

Fast R-CNN的优点

1、mAP高
2、训练是单阶段的,使用了多任务loss
3、SPPnet有部分卷积层不更新,我们可以更新网络里面的所有层
4、提取出来的特征不需要存下来

模型架构

Fast R-CNN architecture
模型输入:整个图像和一组建议对象(object proposals)

整体流程:
1、模型处理整张图片,产生一个特征图
2、把候选的对象(候选框)映射到特征图上面(RoI projection)
3、把候选框那部分对应的特征图提取出一个固定长度的特征向量,也就是一个7x7的特征图(RoI pooling layer)
4、后面接几个全连接层,同时接两个头,一个分类,一个对边界框进行回归

把VGG16调整成Fast R-CNN

先看一下VGG的结构
VGG

1、把最后一个池化层改成自适应池化层,输出特征图大小为固定的7x7大小
2、把最后一个全连接和softmax替换成两个子网络,一个分类,一个回归。分类的类别数应该是目标检测数据集的类别数加一(加背景这个类别)
3、把模型的输入改成图片+图片中的感兴趣区域(RoI)。

本人理解,RoI就是候选区域,也是候选框。不一定对,欢迎交流。

论文后面还有一些内容,下一篇文章再写。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
R-CNN(Region-based Convolutional Neural Networks)是一种目标检测算法,它通过两个阶段来检测图像中的目标物体。首先,R-CNN使用选择性搜索(Selective Search)算法生成一系列候选区域,然后对每个候选区域进行卷积神经网络CNN)特征提取和分类。R-CNN的主要缺点是速度较慢,因为每个候选区域都需要独立地进行CNN特征提取和分类。 Fast R-CNN是对R-CNN的改进,它通过引入RoI池化层(Region of Interest pooling)来解决R-CNN中重复计算的问题。RoI池化层可以将不同大小的候选区域映射为固定大小的特征图,从而使得所有候选区域可以共享相同的特征提取过程。这样一来,Fast R-CNN相比于R-CNN具有更快的速度。 Faster R-CNN是对Fast R-CNN的进一步改进,它引入了一个称为Region Proposal Network(RPN)的子网络来生成候选区域。RPN通过滑动窗口在特征图上提取候选区域,并为每个候选区域分配一个得分,然后根据得分进行筛选和排序。这种端到端的训练方式使得Faster R-CNN目标检测任务上具有更高的准确性和更快的速度。 Mask R-CNN是在Faster R-CNN的基础上进一步发展的,它不仅可以进行目标检测,还可以进行实例分割。Mask R-CNN在Faster R-CNN的基础上增加了一个分支网络,用于预测每个候选区域中目标物体的像素级掩码。这使得Mask R-CNN能够同时获得目标的位置信息和像素级别的语义信息。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值