在faster-rcnn网络上增加了一条与bbox回归和分类平行的结构,检测目标的同时输出目标的分割掩码图,运行效率为5fps,网络结构如下图所示:
掩码分支是一个用于每个RoI的小fcn网络,以pixel-to-pixel的方式预测分割掩码。Faster-RCNN不是设计来pixel-to-pixel的对齐,在特征提取过程中,RoIPool提供的是粗糙空间量化信息。Mask R-CNN提出了RoIAlign用于保存精确的空间信息。
相关工作
RCNN
Faster RCNN
实例分割:DeepMask,FCIS(全卷积实例分割)
Mask-RCNN对每个RoI输出一个二值mask,对每个RoI,损失函数为:
L=Lcls