涉及到的知识点补充:
首先,先看两张图(第一张图来源于论文,第二张图来源于网络),如下:
(图1)
(图2)
图1:可以看出MaskRCNN在有效检测目标的同时输出高质量的实例分割mask
图2:可以看出MaskRCNN的网络结构,作为FasterRCNN的扩展
1):用RolAlign代替了RoIPooling,RoIPooling使用取整量化,导致特征图RoI映射回原图RoI时空间不对齐明显,造成误差;RolAlign不使用取整量化而是采用双线性插值,完成像素级的对齐;
2):FasterRcnn为每个候选对象ROI提供两个输出,一个类标签,一个边界框偏移量,为此,MaskRCNN并行添加了第三个分割mask的分支,mask分支是应用到每一个ROI上的一个小的FCN(Fully Convolutional Network),以pix2pix的方式预测分割mask。
MaskRCNN具有很好的泛化适应能力,可以和多种RCNN框架结合,比较常见的如:
1)FasterRCNN/ResNet;
2)FasterRCNN/FPN
在接下来的文章介绍中则主要结合FPN网络记录MaskRCNN的工作原理
如果要说清楚MaskRCNN的工作原理,先从数据