知识面的盲点那么多,为什么不看看
星标/置顶 深度学习干货分享❤
————
论文题目:Mask RCNN
论文地址:https://arxiv.org/pdf/1703.06870.pdf
目标检测系列:『目标检测』解读RCNN与Fast RCNN → 『目标检测 2 』Faster RCNN → Mask RCNN
解读
MASK RCNN获得2017年ICCV最佳论文,作者是谁大家都知道。mask综合了以往优秀的成果,在faster rcnn基础上进行了改进,速度略慢于faster rcnn,总体性能大幅度提升。可以做 目标检测、分类、人体姿态检测、语义分割、实例分割等。 创新点: 使用 ROIAlign代替ROIPooling (最主要) 基础网络使用 Resnet+FPN,使用不同大小的feature map 添加新的分支mask 先看下faster rcnn 与mask rcnn 的区别![fe6b5b756513fba50e52facf7566e922.png](https://i-blog.csdnimg.cn/blog_migrate/65c455a14702077d53aef4f4ca0e1563.jpeg)
faster rcnn
![822de137201db4e9a541c44060249c2e.png](https://i-blog.csdnimg.cn/blog_migrate/d9a9aed204c4bd070f03e18293a92524.jpeg)
mask rcnn
可以看到,mask在特征提取阶段是把 不同大小的特征图送到RPN中训练(而faster只有一种尺寸)。经过RPN后产生大量的候选区域需要用ROI在多个不同尺寸的特征图上切出来感兴趣区域也就是目标区域,然后送入到ROIAlign(faster 是ROIPooling)之后进行后续的分类和回归 。 从这两幅对比图,先抛出来两个疑问。 1.mask rcnn 特征提取阶段把不同尺寸feature map都使用到了,那怎么确定ROI去切哪一张特征图? 2.为什么要使用这种多个特征图方式,而不是像faster 一样统一