R-CNN、Fast R-CNN、Faster R-CNN、Mask R-CNN网络结构

最新推荐文章于 2024-05-10 03:03:34 发布

~华仔呀

最新推荐文章于 2024-05-10 03:03:34 发布

阅读量687

点赞数

分类专栏：计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/minhuaQAQ/article/details/104515304

版权

计算机视觉专栏收录该内容

10 篇文章 0 订阅

订阅专栏

R-CNN

https://blog.csdn.net/briblue/article/details/82012575

https://www.jianshu.com/p/c1696c27abf8

R-CNN模型：

R-CNN的主要性能瓶颈在于需要对每个提议区域独立抽取特征。由于这些区域通常有大量重叠，独立的特征抽取会导致大量的重复计算。Fast R-CNN对R-CNN的一个主要改进在于只对整个图像做卷积神经网络的前向计算。

Fast R-CNN

Fast R-CNN模型：

Fast R-CNN通常需要在选择性搜索中生成较多的提议区域，以获得较精确的目标检测结果。Faster R-CNN提出将选择性搜索替换成区域提议网络（region proposal network），从而减少提议区域的生成数量，并保证目标检测的精度。

Faster R-CNN

Faster R-CNN模型：

概念理解
思想：SPP逆向（即从相同尺寸的输出，倒推得到不同尺寸的输入）
feature maps:5139256(256是层数），在feature maps的基础上，通过一个33的滑动窗口，stride=1,padding=2,就能得到5139个的窗口。对于每个33的窗口，计算这个33滑动窗口的中心点（这个中心点就是anchor)在原图中的对应点。每个3*3窗口，假定它来自9种不同的原始区域（就是原始图片）。我们可以根据宽高比和缩放比，逆向推导出它所对应的原始图片中的一个区域（共9个）。这9个区域就是proposal。
我们通过滑动窗口和anchor，得到 51x39x9 个原始图片的proposal。接下来，每个proposal我们只输出6个参数：每个 proposal 和 ground truth 进行比较得到的前景概率和背景概率(2个参数）；由于每个 proposal 和 ground truth 位置及尺寸上的差异，从 proposal 通过平移放缩得到 ground truth 需要的4个平移放缩参数。
anchor box个数：51 x 39 x 9 = 17900,约等于 2k

Mask R-CNN

如果训练数据还标注了每个目标在图像上的像素级位置，那么Mask R-CNN能有效利用这些详尽的标注信息进一步提升目标检测的精度。

Mask R-CNN模型：

Mask R-CNN在Faster R-CNN的基础上做了修改。Mask R-CNN将兴趣区域池化层替换成了兴趣区域对齐层，即通过双线性插值（bilinear interpolation）来保留特征图上的空间信息，从而更适于像素级预测。兴趣区域对齐层的输出包含了所有兴趣区域的形状相同的特征图。它们既用来预测兴趣区域的类别和边界框，又通过额外的全卷积网络预测目标的像素级位置。

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
R-CNN、Fast R-CNN、Faster R-CNN、Mask R-CNN网络结构

https://blog.csdn.net/briblue/article/details/82012575
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。