区域卷积神经⽹络(R-CNN)系列

R-CNN
R-CNN ⾸先对图像选取若⼲提议区域(例如锚框也是⼀种选取⽅法)并标注它们的类别和边界框(例如偏移量)
在这里插入图片描述
R-CNN 主要由以下四步构成:
(1) 对输⼊图像使⽤选择性搜索(selective search)来选取多个⾼质量的提议区域;
(2) 选取⼀个预训练的卷积神经⽹络,并将其在输出层之前截断。将每个提议区域变形为⽹络需要的输⼊尺⼨,并通过前向计算输出抽取的提议区域特征;
(3) 将每个提议区域的特征连同其标注的类别作为⼀个样本,训练多个⽀持向量机对⽬标分类。其中每个⽀持向量机⽤来判断样本是否属于某⼀个类别;
(4) 将每个提议区域的特征连同其标注的边界框作为⼀个样本,训练线性回归模型来预测真实边界框。
R-CNN缺点:速度慢,我们可能从⼀张图像中选出上千个提议区域,对该图像做⽬标检测将导致上千次的卷积神经⽹络的前向计算。这个巨⼤的计算量令 R-CNN 难以在实际应⽤中被⼴泛采⽤。

Fast R-CNN
Fast R-CNN 对 R-CNN 的⼀个主要改进在于只对整个图像做卷积神经⽹络的前向计算。在这里插入图片描述

Faster R-CNN
Faster R-CNN 提出将选择性搜索替换成区域提议⽹络(region proposal network),从而减少提议区域的⽣成数量,并保证⽬标检测的精度。在这里插入图片描述
注意:
区域提议⽹络作为 Faster R-CNN 的⼀部分,是和整个模型⼀起训练得到的。也就是说,Faster R-CNN 的⽬标函数既包括⽬标检测中的类别和边界框预测,⼜包括区域提议⽹络中锚框的⼆元类别和边界框预测。最终,区域提议⽹络能够学习到如何⽣成⾼质量的提议区域,从而在减少提议区域数量的情况下也能保证⽬标检测的精度。

Mask R-CNN
如果训练数据还标注了每个⽬标在图像上的像素级位置,那么 Mask R-CNN 能有效利⽤这些详尽的标注信息进⼀步提升⽬标检测的精度。在这里插入图片描述
Mask R-CNN 将兴趣区域池化层替换成了兴趣区域对⻬层,即通过双线性插值(bilinear interpolation)来保留特征图上的空间信息,从而更适于像素级预测。兴趣区域对⻬层的输出包含了所有兴趣区域的形状相同的特征。

总结
R-CNN 对图像选取若⼲提议区域,然后⽤卷积神经⽹络对每个提议区域做前向计算抽取特征,再⽤这些特征预测提议区域的类别和边界框。
Fast R-CNN 对 R-CNN 的⼀个主要改进在于只对整个图像做卷积神经⽹络的前向计算。它引⼊了兴趣区域池化层,从而令兴趣区域能够抽取出形状相同的特征。
Faster R-CNN 将 Fast R-CNN 中的选择性搜索替换成区域提议⽹络,从而减少提议区域的⽣成数量,并保证⽬标检测的精度。
Mask R-CNN 在 Faster R-CNN 基础上引⼊⼀个全卷积⽹络,从而借助⽬标的像素级位置进⼀步提升⽬标检测的精度。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值