《Mask R-CNN》 基于 Mask R-CNN的目标检测
- 作者: Kaiming he
- 单位: Facebook Al research(FAR)
- 发表会议及时间:ICCV 2017
RCNN发展时间坐标:RCNN ->Fast RCNN->Faster RCNN->Mask RCNN
研究成果(Research background)
Mask CNN由 Faster RCNN改造而来,该模型为图片中的对象实例产生边界框和分割掩膜。该模型基于FPN和一个ResNet101为主结构。增加了
- Rol Align
- Mask Prediction Branch
Mask R-CNN训练简单,相对于 Faster R-CNN只增加了很小的开销,运行速度在5fps。此外, Mask R-CNN很容易推广到其他任务,例如,在同一个框架中估计人体姿势。
技术要点(Research background)
RCNN
- Selective search提取2000个待检测区域
- 用 Alexnet进行特征提取
- 用支持向量机进行分类
RCNN的问题
4. 耗时的 selective search,对一帧图像,需要花费2s。
5. 耗时的串行式CNN前向传播,对于每一个RoI,都需要经过一个 AlexNet提特征,为所有的RoI提特征大约花费47s。
6. 三个模块是分别训练的,并且在训练的时候,对于存储空间的消耗很大。
Fast-RCNN
7. selective search提取2000个候选框
8. 对全图进行特征提取
9. 使 Rol Pooling Layer在全图特征上摘取每一个Rol对应的特征
10. 通过全连接层( FC Layer)进行分类与包围框的修正
Fast-RCNN的问题
11. 耗时的 selective search,还是存在
Faster RCNN
- Region Proposal Network代替 selectivesearch
优点:在生成ROI区域时,时间大幅缩减
- 共享的卷积层backbone
- RPN
- 分类网络
anchor boxes有9种不同的尺寸。RPN做的是两个任务,判断前后景以及坐标修正。
Rol POOL
- 由于进行浮点数取整,Rol feature是通过四舍五入取整得到的结果,通过 Rol pooling过后的输出可能与原图像的ROI尺寸对不上
- 因此,我们引入了 Rol Align