本文概览
简单灵活且效果好的用于分割和关键点检测的算法;
在Faster RCNN上进行简单的扩展使其能够完成物体分割或关键点检测等任务;
没有使用任何额外的技巧,可以在多个物体分割和关键点检测数据集上获得最好的实验效果;
相比传统复杂的物体分割方法,本文提出的方法非常灵活简单并且效果好;
主要是在Faster RCNN中的RPN网络后面增加一个和预测物品类别并行的分支,用于预测分割mask;
新增加的分支是一个小的全卷积结构,对每一个需要进行类别预测的RoI都进行分割mask预测;
本文方法仅仅在原Faster RCNN基础上增加了小的计算量,训练和测试速度快;
由于分割任务和检测任务对像素对齐的要求不同,本文将RoI Pooling改进为RoIAlign;
RoIAlign相对RoI Pooling在分割任务中可以大大提升预测精度;
本文作者指出对类别预测和mask预测进行解耦和操作是至关重要的,即为每一个类别单独预测mask并且不同类别之间的mask是不会相互竞争的,有多少个类别就有多少个mask,针对每个类别单独训练其mask;
在进行关键点预测任务中,目标位K个one-shot二进制响应图;
训练成本:COCO分割数据集需要8-GPU训练2天,测试成本:单GPU,200ms处理一张图片;
可以在本文的思想方法基础上做其他的基于已知物体检测模型的拓展工作;
Mask RCNN算法核心
两阶段过程,第一阶段为RPN提取RoI,第二阶段为每个RoI并行预测物体类别,bbox回归框,二进制mask;
对每个RoI定义多任务损失: L=Lcls+Lbox+L