目录
本文思想
本文使用的网络结构如上图所示:
首先需要通过一个backbone来提取特征,本文采用的是ResNet50/ResNeXt101。
第二步利用FPN(Feature Pyramid Networks)获得在多个尺度空间上的特征。
第三步利用RPN(RegionProposal Network)在特征图上进行滑动,得到大量的候选框(Region Proposal)
最后需要利用HTC算法,根据候选框(Region Proposal)和feature map修正对应的bbox和mask
本文主要提出的改进算法是在最后一个步骤上,通过关联bbox,mask,语义信息,来提高其分割准确率。
主要改进
1. Cascade Mask R-CNN – 基础网络
Cascade Mask R-CNN是本文改进的基础网络,主要结构是通过feature和RPN生成的初始框(B0),利用ROI Pooling/ROI Align网络得到预测的M1(mask)和B1(bbox),共有三个阶段网络,每一阶段根据前一阶段的Bi-1来推测当前阶段的Mi和Bi。