MaskR-CNN
Mask R-CNN的模型结构
Mask R-CNN是在Faster R-CNN的基础上添加了一个预测分割mask的分支,如上图所示。其中黑色部分为原来的Faster-RCNN,红色部分为在Faster-RCNN网络上的修改。将RoI Pooling层替换成了RoIAlign层;添加了并列的FCN层(mask层)。
此外,Mask R-CNN还引入FPN(图像金字塔结构)。
FPN
FPN为图像金字塔结构,把CNN提取的底层特征和高层特征进行融合,便于细致检测,如下图
使用FPN后,Mask R-CNN backbone输出的feature map为P2-P6 feature map。
P k + 1 P_{k+1} Pk+1会进行2倍的双线性采样,然后和 C k C_k Ck融合形成 P k P_k Pk。
由于有多张feature map,为了解决选择哪个feature map来切哪个ROI区域的问题,作者设计了底下的公式。
k = ⌊ k 0 + l o g 2 w h 224 ⌋ k=\lfloor k_0+log_2\frac{\sqrt{wh}}{224}\rfloor k=⌊k0