RCNN系列,从RCNN到fast-RCNN、faster RCNN、Mask RCNN

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
x、y是以真实值的中心为远点的坐标,w和h是预测框的长宽。先做平移再做缩放。输入P,映射之后的G‘尽可能接近真实的G。映射就是P+P*dp

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
注意!输入的RegionProposal→P=(Px,Py,Pw,Ph) RegionProposal→P=(Px,Py,Pw,Ph),这个是什么? 输入就是这四个数值吗?其实真正的输入是 这个窗口对应的 CNN 特征 ,也就是 R-CNN 中的 Pool5 feature(特征向量)。 (注:训练阶段输入还包括 Ground Truth, 也就是下边提到的t∗=(tx,ty,tw,th)

在这里插入图片描述

Fast RCNN

在这里插入图片描述
Fast RCNN主要有3个改进:1、卷积不再是对每个region proposal进行,而是直接对整张图像,这样减少了很多重复计算。原来RCNN是对每个region proposal分别做卷积,因为一张图像中有2000左右的region proposal,肯定相互之间的重叠率很高,因此产生重复计算。2、用ROI pooling进行特征的尺寸变换,因为全连接层的输入要求尺寸大小一样,因此不能直接把region proposal作为输入。3、将regressor放进网络一起训练,每个类别对应一个regressor,同时用softmax代替原来的SVM分类器。

在这里插入图片描述
网络的输入是图片和ROI的位置信息。
在这里插入图片描述在这里插入图片描述

在这里插入图片描述

SPP Net(Fast Rcnn与SPP有联系)

在这里插入图片描述

在这里插入图片描述SPP-Net在cov-5会输出256层特征图,每一层都做一次空间金字塔池化。先把每个特征图分割成多个不同尺寸的网格,比如网格分别为44、 22、1*1,然后每个网格做maxpooling,这样256层特征图就形 成了16256,4256,1*256维特征, 它们连起来就形成了一个固定长度的特征向量,将这个向量输入到 后面的全连接层。(简单地说就是划分网格,然后进行最大池化,网格的划分大小不同。)

在这里插入图片描述
在这里插入图片描述

Faster RCNN

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
下面这幅图更加详细中间的流程
在这里插入图片描述

Mask RCNN

在这里插入图片描述

ROI Align

在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值