论文阅读-《Mask R-CNN》

最新推荐文章于 2025-06-19 11:58:27 发布

yj_isee

最新推荐文章于 2025-06-19 11:58:27 发布

阅读量1w

点赞数 1

CC 4.0 BY-SA版权

分类专栏： Computer Vision 计算机视觉论文研读

本文链接：https://blog.csdn.net/yaoqi_isee/article/details/64919515

本文介绍了Mask R-CNN，它在Faster R-CNN基础上增加了一个分支预测对象掩模，实现实例分割。ROI Align层解决了特征映射量化导致的像素对齐问题，提高了性能。实验表明，Mask R-CNN在COCO实例分割和检测任务中表现出色。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

arxiv 2017/3/20 KaiMing He & Rbg

1.Contribution

Propose a general instance segmentation method called Mask-RCNN, which extends Faster R-CNN by adding a branch for predicting an object mask in parallel with the existing branch for bounding box recognition
performance: 5帧/秒 state-of-art in instance segmentation

Mask RCNN是在faster rcnn的基础上，加上了一个mask branch，对于经过RPN得到的一个proposal，假设经过ROI pooling之后得到m*m固定大小的feature map，一方面通过detection得到这个proposal的类别和坐标回归。另一方面通过mask branch得到对这个ROI的分割结果。假设数据集一共有K个类，那么mask的输出就是K个channel的binary score map。mask branch对于每一个类独立预测这个类的binary mask，而不是所有的类一起预测一个score map。这样，就把segmentation和classification分开来了。classification专门由detection部分的cls去做，mask branch只需要预测前景就行。
训练的时候在instance segmentation数据集上面，既有mask label也有detection label。定义loss是一个multi-task loss = loss(cls) + loss(reg) + loss(mask)。假设gt class label是k，那么mask