Mask R-CNN是以Faster R-CNN为原型,增加了一个分支用于分割任务
与Faster R-CNN的不同之处:
- 对于每个Proposal Box使用FCN进行语义分割。
- 引入ROI Align代替ROI Poling。
- 引入语义分割分支
FCN(Fully Convolutional Networks)
CNN进行语义分割只能提取一下局部特征,无法确定像素区域,而且计算量较大。
用全卷积层代替全连接层以保持维数,用于语义分割。
ROI Align
因为ROI Poling对于mask来说很影响精度,故引入ROI Align。
ROI Pooling这一操作存在两次量化的过程:将候选框边界量化为整数点坐标值;将量化后的边界区域平均分割成 k x k 个单元(bin),对每一个单元的边界进行量化。量化是因为像素是整数
ROI Align取消了量化操作,使用双线性插值的方法获得坐标为浮点数的像素点上的图像数值。
语义分割分支:
损失函数