RCNN,Fast-RCNN与Faster-RCNN（搬运总结）

算小法白

已于 2023-07-07 15:56:44 修改

阅读量505

点赞数 2

文章标签：人工智能计算机视觉

于 2023-07-07 15:00:47 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_68178753/article/details/131593854

版权

什么是目标检测？

所谓目标检测就是在一张图像中找到我们关注的目标，并确定它的类别和位置，这是计算机视觉领域最核心的问题之一。由于各类目标不同的外观，颜色，大小以及在成像时光照，遮挡等具有挑战性的问题，目标检测一直处于不断的优化和研究中。

RCNN

RCNN算法流程:

1.输入一张图像（图片的大小并没有固定的要求。然而，为了方便处理和训练，通常会将输入图片调整为固定的尺寸。常见的图片大小为224x224、227x227或者299x299像素。）

2.通过selective search算法选出不同大小的Region Proposal区域。

Selective Search算法主要步骤：

1）使用一种过分割手段，将图像分割成小区域 (1k~2k 个)

2）计算所有邻近区域之间的相似性，包括颜色、纹理、尺度等

3）将相似度比较高的区域合并到一起

4）计算合并区域和临近区域的相似度

5）重复3、4过程，直到整个图片变成一个区域

3.由于输入卷积神经网络的图片大小要求相同，所以需要对Region Proposal区域做图像上的归一化（即使不同的RP，变成相同的大小）。

4.通过卷积神经网络输出向量，再通过SVM进行分类。使用回归器精细修正候选框位置。

缺点：

1.训练时间长：主要原因是分阶段多次训练，而且对于每个region proposal都要单独计算一次feature map，导致整体的时间变长。

2.占用空间大：每个region proposal的feature map都要写入硬盘中保存，以供后续的步骤使用。

3.multi-stage：文章中提出的模型包括多个模块，每个模块都是相互独立的，训练也是分开的。这会导致精度不高，因为整体没有一个训练联动性，都是不共享分割训练的，自然最重要的CNN特征提取也不会做的太好。

4.测试时间长，由于不共享计算，所以对于test image，也要为每个proposal单独计算一次feature map，因此测试时间也很长。

5.训练比较麻烦，首先需要先训练分类模型网络，进而对bounding box进行回归计算。

Fast-RCNN

Fast RCNN算法流程:

1.通过selective search算法选出不同大小的Region Proposal区域。

2.直接把整张图片输入卷积神经网络，生成特征图（卷积共享，提升速度）。

3.在这个convnet输出的feature map上通过感受野找到输入图片上对应的RoI，特征图上的区域就是输入图像上RoI的特征。

4.通过ROI Pooling（借鉴SSPNet的思想）将图片变成相同的大小。变成固定长度的全连接层输入。

5.在通过全连接层与SVM进行分类和使用回归器精细修正候选框位置。

优缺点:

（1）Fast RCNN与RCNN相比有如下优点：

1.测试时的速度得到了提升。RCNN算法与图像内的大量候选帧重叠，导致提取特征操作中的大量冗余。而Fast RCNN很好地解决了这一问题。

2.训练时的速度得到了提升。

3.训练所需的空间大。RCNN中分类器和回归器需要大量特征作为训练样本，而Fast RCNN则不再需要额外的存储。

（2）Fast RCNN仍存在的不足：

1.由于使用的Selective Search选择性搜索，这一过程十分耗费时间。

2.由于使用Selective Search来预先提取候选区域，Fast RCNN并未实现真正意义上端到端的训练模式。

Faster-RCNN

Faster RCNN算法流程:

1.将原始图片直接输入到convnet（卷积神经网络）中，生成特征图。（不再进行Selective Search算法）

2.在输出的feature map上施加一个Region Proposal Network (RPN)，用来代替之前在原始图像上的传统方法。通过RPN产生很多个候选框。然后进行Classification loss(为二分类，判断这个框是不是物体，用来过滤不要的候选框),Bounding-box regression loss(微调给定的边框，使之anchor box可以更接近gt的框。)

3.将CNN和RPN网络相加，进行ROI Pooling,最终输出分类对区域框中的图像进行分类，回归则是为了预测分类框的位置。

RPN

算法流程：

1.经过VGG或者ZFNet产生的特征图作为RPN的输入。

2.在特征图上执行3x3的滑窗操作，每个滑窗对应的区域映射为低维特征(256-d for ZF and 512-d for VGG, with ReLU following)，后接两个全连接分支：一个分类一个回归。

3.每个3x3滑窗的中心，在原始图像上对应的感受野上有k kk个anchor boxes（论文中是9个：3个尺度和对应的3个长宽比），所以每个滑窗会得到2k个分类结果和4k个回归结果。

优缺点：

优点：

准确性高：由于使用了RPN（区域提议网络）来生成候选区域，再通过RoI（感兴趣区域）池化来提取特征，因此Faster RCNN的准确性比较高。
处理速度快：使用预训练的卷积神经网络（如VGG16、ResNet等）加速了训练和测试过程。

缺点：

时间复杂度高：Faster RCNN的算法流程比较复杂，训练和推理时间比较长。
实际应用困难：Faster RCNN的实际应用不够方便，需要一定的研究门槛。

总结

该图来源于：(4条消息) 一文详解R-CNN、Fast R-CNN、Faster_faster rcnn参数量和模型大小_Hong_Youth的博客-CSDN博客

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
RCNN,Fast-RCNN与Faster-RCNN（搬运总结）

(4条消息) 一文详解R-CNN、Fast R-CNN、Faster_faster rcnn参数量和模型大小_Hong_Youth的博客-CSDN博客。
复制链接

扫一扫

博客等级

码龄2年

13
原创

75
点赞

137
收藏

46
粉丝

关注

私信

热门文章

最新评论

LAYER-ADAPTIVE SPARSITY FOR THEMAGNITUDE-BASED PRUNING（LAMP）翻译
2301_78267162: 这篇论文是真晦涩啊写的
LAYER-ADAPTIVE SPARSITY FOR THEMAGNITUDE-BASED PRUNING（LAMP）翻译
不吃外卖i: 这个算法是哪一年的呀？怎么下载文件的时候，2010？
LAYER-ADAPTIVE SPARSITY FOR THEMAGNITUDE-BASED PRUNING（LAMP）翻译
brandon326: 在排序了每层中的lamp分数后，修剪掉最小的那个分数所表示的连接，请问这个修剪是修剪掉这个链接所在的通道，还是单纯剪掉这个链接呢？如果单纯修剪掉这个链接的话，那这个方法岂不是非结构化的？或者说我对这个链接的理解有误？望回复
LAYER-ADAPTIVE SPARSITY FOR THEMAGNITUDE-BASED PRUNING（LAMP）翻译
算小法白: 论文地址：https://arxiv.org/abs/2010.07611
RNN,LSTM,CNN,RCNN的优缺点
CSDN-Ada助手: 非常值得祝贺您撰写了第8篇博客！标题“RNN, LSTM, CNN, RCNN的优缺点”非常吸引人，这种对不同深度学习模型的比较总能帮助读者更好地理解它们的优势和劣势。您的文章对于初学者来说无疑是非常有帮助的。接下来，我想给予您一些建议以进一步提升您的创作技巧。或许您可以考虑为读者提供更多实际案例或应用场景，这将使您的文章更加具体和易于理解。此外，您也可以尝试与读者进行互动，鼓励他们在评论区分享自己对这些模型的看法和经验，这将为您的博客增添更多的学术价值。总之，非常感谢您的辛勤努力，期待在不久的将来看到更多精彩的博客！继续保持创作，您一定会取得更大的成就！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。