R-CNN、Fast R-CNN、Faster R-CNN、Mask R-CNN网络结构

R-CNN

https://blog.csdn.net/briblue/article/details/82012575

https://www.jianshu.com/p/c1696c27abf8

R-CNN模型:

R-CNN的主要性能瓶颈在于需要对每个提议区域独立抽取特征。由于这些区域通常有大量重叠,独立的特征抽取会导致大量的重复计算。Fast R-CNN对R-CNN的一个主要改进在于只对整个图像做卷积神经网络的前向计算。

Fast R-CNN

Fast R-CNN模型:

Fast R-CNN通常需要在选择性搜索中生成较多的提议区域,以获得较精确的目标检测结果。Faster R-CNN提出将选择性搜索替换成区域提议网络(region proposal network),从而减少提议区域的生成数量,并保证目标检测的精度。

Faster R-CNN

Faster R-CNN模型:

 

概念理解
思想:SPP逆向(即从相同尺寸的输出,倒推得到不同尺寸的输入)
    feature maps:51*39*256(256是层数),在feature maps的基础上,通过一个3*3的滑动窗口,stride=1,padding=2,就能得到51*39个的窗口。对于每个3*3的窗口,计算这个3*3滑动窗口的中心点(这个中心点就是anchor)在原图中的对应点。每个3*3窗口,假定它来自9种不同的原始区域(就是原始图片)。我们可以根据宽高比和缩放比,逆向推导出它所对应的原始图片中的一个区域(共9个)。这9个区域就是proposal。
     我们通过滑动窗口和anchor,得到 51x39x9 个原始图片的proposal。接下来,每个proposal我们只输出6个参数:每个 proposal 和 ground truth 进行比较得到的前景概率和背景概率(2个参数);由于每个 proposal 和 ground truth 位置及尺寸上的差异,从 proposal 通过平移放缩得到 ground truth 需要的4个平移放缩参数。
anchor box个数:51 x 39 x 9 = 17900,约等于 2k

Mask R-CNN

如果训练数据还标注了每个目标在图像上的像素级位置,那么Mask R-CNN能有效利用这些详尽的标注信息进一步提升目标检测的精度。

Mask R-CNN模型:

Mask R-CNN在Faster R-CNN的基础上做了修改。Mask R-CNN将兴趣区域池化层替换成了兴趣区域对齐层,即通过双线性插值(bilinear interpolation)来保留特征图上的空间信息,从而更适于像素级预测。兴趣区域对齐层的输出包含了所有兴趣区域的形状相同的特征图。它们既用来预测兴趣区域的类别和边界框,又通过额外的全卷积网络预测目标的像素级位置。

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值