RCNN,Fast-RCNN与Faster-RCNN(搬运总结)

什么是目标检测?

所谓目标检测就是在一张图像中找到我们关注的目标,并确定它的类别和位置,这是计算机视觉领域最核心的问题之一。由于各类目标不同的外观,颜色,大小以及在成像时光照,遮挡等具有挑战性的问题,目标检测一直处于不断的优化和研究中。

 RCNN

RCNN算法流程:

1.输入一张图像(图片的大小并没有固定的要求。然而,为了方便处理和训练,通常会将输入图片调整为固定的尺寸。常见的图片大小为224x224、227x227或者299x299像素。)

2.通过selective search算法选出不同大小的Region Proposal区域。

Selective Search算法主要步骤:

        1)使用一种过分割手段,将图像分割成小区域 (1k~2k 个)

        2)计算所有邻近区域之间的相似性,包括颜色、纹理、尺度等

        3)将相似度比较高的区域合并到一起

        4)计算合并区域和临近区域的相似度

        5)重复3、4过程,直到整个图片变成一个区域

3.由于输入卷积神经网络的图片大小要求相同,所以需要对Region Proposal区域做图像上的归一化(即使不同的RP,变成相同的大小)。

4.通过卷积神经网络输出向量,再通过SVM进行分类。使用回归器精细修正候选框位置。

 缺点:

1.训练时间长:主要原因是分阶段多次训练,而且对于每个region proposal都要单独计算一次feature map,导致整体的时间变长。

2.占用空间大:每个region proposal的feature map都要写入硬盘中保存,以供后续的步骤使用。

3.multi-stage:文章中提出的模型包括多个模块,每个模块都是相互独立的,训练也是分开的。这会导致精度不高,因为整体没有一个训练联动性,都是不共享分割训练的,自然最重要的CNN特征提取也不会做的太好。

4.测试时间长,由于不共享计算,所以对于test image,也要为每个proposal单独计算一次feature map,因此测试时间也很长。

5.训练比较麻烦,首先需要先训练分类模型网络,进而对bounding box进行回归计算。

Fast-RCNN

Fast RCNN算法流程:

1.通过selective search算法选出不同大小的Region Proposal区域。

2.直接把整张图片输入卷积神经网络,生成特征图(卷积共享,提升速度)

3.在这个convnet输出的feature map上通过感受野找到输入图片上对应的RoI,特征图上的区域就是输入图像上RoI的特征。

4.通过ROI Pooling(借鉴SSPNet的思想)将图片变成相同的大小。变成固定长度的全连接层输入。

5.在通过全连接层与SVM进行分类和使用回归器精细修正候选框位置。

优缺点:

(1)Fast RCNN与RCNN相比有如下优点:

        1.测试时的速度得到了提升。RCNN算法与图像内的大量候选帧重叠,导致提取特征操作中的大量冗余。而Fast RCNN很好地解决了这一问题。

        2.训练时的速度得到了提升。

        3.训练所需的空间大。RCNN中分类器和回归器需要大量特征作为训练样本,而Fast RCNN则不再需要额外的存储。

(2)Fast RCNN仍存在的不足:

        1.由于使用的Selective Search选择性搜索,这一过程十分耗费时间。

        2.由于使用Selective Search来预先提取候选区域,Fast RCNN并未实现真正意义上端到端的训练模式。

Faster-RCNN

Faster RCNN算法流程:

1.将原始图片直接输入到convnet(卷积神经网络)中,生成特征图。(不再进行Selective Search算法)

2.在输出的feature map上施加一个Region Proposal Network (RPN),用来代替之前在原始图像上的传统方法。通过RPN产生很多个候选框。然后进行Classification loss(为二分类,判断这个框是不是物体,用来过滤不要的候选框),Bounding-box regression loss(微调给定的边框,使之anchor box可以更接近gt的框。)

3.将CNN和RPN网络相加,进行ROI Pooling,最终输出分类对区域框中的图像进行分类,回归则是为了预测分类框的位置。

RPN

算法流程:

1.经过VGG或者ZFNet产生的特征图作为RPN的输入。

2.在特征图上执行3x3的滑窗操作,每个滑窗对应的区域映射为低维特征(256-d for ZF and 512-d for VGG, with ReLU following),后接两个全连接分支:一个分类一个回归。

3.每个3x3滑窗的中心,在原始图像上对应的感受野上有k kk个anchor boxes(论文中是9个:3个尺度和对应的3个长宽比),所以每个滑窗会得到2k个分类结果和4k个回归结果。

 

优缺点:

优点:

  1. 准确性高:由于使用了RPN(区域提议网络)来生成候选区域,再通过RoI(感兴趣区域)池化来提取特征,因此Faster RCNN的准确性比较高。
  2. 处理速度快:使用预训练的卷积神经网络(如VGG16、ResNet等)加速了训练和测试过程。

缺点:

  1. 时间复杂度高:Faster RCNN的算法流程比较复杂,训练和推理时间比较长。
  2. 实际应用困难:Faster RCNN的实际应用不够方便,需要一定的研究门槛。

总结

该图来源于:(4条消息) 一文详解R-CNN、Fast R-CNN、Faster_faster rcnn参数量和模型大小_Hong_Youth的博客-CSDN博客

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值