Mask-RCNN论文学习

《Mask R-CNN》 基于 Mask R-CNN的目标检测

  • 作者: Kaiming he
  • 单位: Facebook Al research(FAR)
  • 发表会议及时间:ICCV 2017

RCNN发展时间坐标:RCNN ->Fast RCNN->Faster RCNN->Mask RCNN

研究成果(Research background)

Mask CNN由 Faster RCNN改造而来,该模型为图片中的对象实例产生边界框和分割掩膜。该模型基于FPN和一个ResNet101为主结构。增加了

  1. Rol Align
  2. Mask Prediction Branch

Mask R-CNN训练简单,相对于 Faster R-CNN只增加了很小的开销,运行速度在5fps。此外, Mask R-CNN很容易推广到其他任务,例如,在同一个框架中估计人体姿势。
在这里插入图片描述

技术要点(Research background)

RCNN

  1. Selective search提取2000个待检测区域
  2. 用 Alexnet进行特征提取
  3. 用支持向量机进行分类
    在这里插入图片描述

RCNN的问题
4. 耗时的 selective search,对一帧图像,需要花费2s。
5. 耗时的串行式CNN前向传播,对于每一个RoI,都需要经过一个 AlexNet提特征,为所有的RoI提特征大约花费47s。
6. 三个模块是分别训练的,并且在训练的时候,对于存储空间的消耗很大。

Fast-RCNN
7. selective search提取2000个候选框
8. 对全图进行特征提取
9. 使 Rol Pooling Layer在全图特征上摘取每一个Rol对应的特征
10. 通过全连接层( FC Layer)进行分类与包围框的修正
在这里插入图片描述

Fast-RCNN的问题
11. 耗时的 selective search,还是存在

Faster RCNN

  • Region Proposal Network代替 selectivesearch
    优点:在生成ROI区域时,时间大幅缩减
    在这里插入图片描述
  1. 共享的卷积层backbone
  2. RPN
  3. 分类网络

在这里插入图片描述
在这里插入图片描述
anchor boxes有9种不同的尺寸。RPN做的是两个任务,判断前后景以及坐标修正。

Rol POOL

  • 由于进行浮点数取整,Rol feature是通过四舍五入取整得到的结果,通过 Rol pooling过后的输出可能与原图像的ROI尺寸对不上
  • 因此,我们引入了 Rol Align
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

天涯小才

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值