1. 核心思想和实现功能
Mask R-CNN 实在Faster R-CNN的基础上演进而来,修改了两个部分,其一是将Faster R-CNN的RoI pooling部分改为RoIAlign,用以实现目标的校正;其二是添加由FCN层组成的Mask头,用以实现目标物体像素级别的分割。
知识扩展:什么是实例分割?
实例分割是对检测出的目标,实现像素级别的语义分割,难度在于要先对一张图片的所有目标进行正确的检测和识别,同时还要对每个目标实例进行分割,即实例分割是目标识别和语义分割的结合。语义分割是将一张图片中的每个像素进行类别判定。
2. 实现过程
(1) Conv生成feature map
通过ResNet-101的前100层提取图像特征,然后在最后一层组合成全局feature map。
(2) RPN产生候选区域
使用Region Proposal Network(RPN)产生候选区域(bounding box)。
(2) 产生ROI feature map