在之前的文章中介绍了目标检测经典模型(R-CNN、Fast R-CNN、Faster R-CNN),目标检测一般是为了实现以下效果:
在R-CNN、Fast R-CNN、Faster R-CNN中,实现了对目标的识别和定位,如下图所示:
为了更加精确地识别目标,实现在像素级场景中识别不同目标,利用“图像分割”技术定位每个目标的精确像素,如下图所示(精确分割出人、汽车、红绿灯等):
Mask R-CNN便是这种“图像分割”的重要模型。
Mask R-CNN的思路很简洁,既然Faster R-CNN目标检测的效果非常好,每个候选区域能输出种类标签和定位信息,那么就在Faster R-CNN的基础上再添加一个分支从而增加一个输出,即物体掩膜(object mask),也即由原来的两个任务(分类+回归)变为了三个任务(分类+回归+分割)。如下图所示,Mask R-CNN由两条分支组成: