Mask Scoring Rcnn论文解读《Mask Scoring R-CNN》

参考链接:

论文链接《Mask Scoring R-CNN》

Github 地址 Mask Scoring RCNN

在大多数实例分割框架中,实例分类的置信度被用作MASK质量分数。

MASK质量:量化为实例MASK与其Groundtruth之间的IoU。

真正评估mask质量的指标应该是预测的mask和GroundTruth的mask之间的IoU,而不是以分类分数作为mask的置信度。 本文增加一个模块直接对MaskIoU进行回归。


                                       Mask Scoring R-CNN

摘要:在大多数实例分割框架中,实例分类的置信度被用作MASK质量分数。MASK质量(量化为实例MASK与其Groundtruth之间的IoU),通常与分类得分没有很好的相关性。在这篇文章中我们提出了MASK  Scoring RCNN结构,包含了一个模块用于学习评估所预测的mask的质量(为预测的MASK打分)。提出的网络模块将实例特征和相应的预测MASK结合起来,对MASKIoU进行回归。这种为MASK打分的策略,校正了MASK质量和MASK分数之间的偏差,并通过在COCO AP评估期间优先考虑更准确的MASK预测来改进实例分割性能。

总结:在原来的大多数框架中,分类的置信度(confidence)被用作MASK的质量分数,但分类得分与MASK质量没有很大相关性,我们提出一个新的模块用来评估MASK质量的分数。(MASK IOU)

    区别:MASK RCNN衡量mask的质量是根据分类的置信度,而我们提出的MSK Scoring RCNN 是提出一个模块根据ROI feature和predicted mask,对mask和GroundTruth的mask之间的IOU进行回归。

Introduction:

    在计算视觉中,深度学习网络的学习从图像分类逐渐向box-level分类、pixel-level分类演变。进行细粒度的预测的能力不仅需要详细的标签,还需要更加精巧的网络设计。

目标检测的下一步应该从粗略的box-level的实例分割演变到精确的pixel-level的分类。

具体来说,本文提出了一种对实例分割假设进行评分的新方法,该方法对实例分割评价具有重要意义。

原因在于,大多数评价指标(如AP)都是根据假设(MASK的假设、预测)得分来确定的,更精确的得分有助于更好地描述模型的性能。

但在传统的框架中,如MASK RCNN和MASKLab,instance mask的分数与box-level分类的置信度共享,该置信度由在proposal feature上应用的分类器预测的。使用分类置信度来度量MASK质量是不合适的,因为它只用于区分proposals的语义类别,而不知道实例MASK的实际质量和完整性。

图中每幅图上标记的两种模型的分数分别是:MS RCNN—我们提出的MASK IOU模块对MASK质量的打分,Mask R-CNN:分类分数。(classification score)。红色的框体现了box-level的框的位置的精确程度。由于背景杂乱,遮挡等问题,如图1所示,分类得分可能很高,但MASK质量很低。

与以前的旨在获得更准确的实例定位或分割mask的方法不同,我们的方法着重于对MASK评分。 为了达到这个目标,我们的模型学习了每个MASK的分数,而不是使用其分类分数。为了清楚起见,我们将学习到的分数称为MASK分数。

受到实例分割的AP评测指标(在预测的MASK和它的ground truthMASK之间使用像素级Intersection-over-Union (IoU)来描述实例分割质量)的启发,我们提出一个网络去直接学习IoU,将这个IoU称为MASKIoU

MASK 质量分数是这样计算的:一旦我们在测试阶段得到了预测的MaskIoU,通过将预测的MaskIoU与分类分数相乘来重新评估mask score。因此,MASK评分既能识别语义类别,又能识别实例mask的完整性。

                                                                                  Smask = Scls · Siou

我们提出的这个模块称为MaskIoU head,它将mask head的输出(predicted mask)和RoI特征作为输入,并使用简单的回归损失进行训练。

the results demonstrate that our method provides consistent and noticeable performance improvement attributing to the alignment between mask quality and score.

Summary:  我们的贡献

  1. 我们提出的网络是第一个强调对实例分割的假设打分的。这是一个改善实例分割模型的新方向。
  2. Mask IoU head简单高效,在COCO数据集上,AP在不同的backbone网络上提升了1.5%。

 

Related work:

实例分割的方法目前可以划分为两类:基于检测的方法(detection)和基于分割的方法(segmentation)。

基于检测的方法是获得每一个实例的区域(region),然后为每一个区域预测一个MASK。

“get the region of each instance, and then predict the mask for each reion. mask quality is only measured by the classification scores.”

基于分割的方法首先对每个像素的类别标签进行预测,然后将它们分组形成实例分割结果。例如一些基于聚类的方法(引用一些文献)。由于这些方法没有明确的分数来衡量实例MASK质量,因此它们必须使用像素级的平均分类分数作为替代。

“Segmentation based methods predict the category labels of each pixel first and then group them together to form instance segmentation results.”

上述两类方法都没有考虑掩模分数和掩模质量之间的对齐。由于掩模分数的不可靠性,一个掩模假设如果掩模分数较低,则IoU对ground truth越高的掩模假设越容易被评为低优先级。在这种情况下,最终AP会因此降低。(不是很理解,似懂非懂)。

 

为了证明分类得分与MASK质量没有很大相关性,也做了实验比较 两种模型对mask的打分方式,与mask质量的关系。(MASK IoU越接近1,mask质量越好。) 

Motivation

由于背景杂乱,遮挡等问题,分类得分可能很高,但MASK质量很低。为了量化分析这个问题,我们设计实验,在MASK RCNN中MASK得分(根据分类),和我们提出的评分方法Smask = Scls · Siou(MaskIoU head得出的Siou)这两种mask评分方法下,对比了两种模型生成的mask与Groundtruth的MASK之间的IoU。(即图中标出的MaskIoU,衡量mask生成的精确程度。)

图a是MASK RCNN模型,在分类分数上的MaskIoU分布,无明显相关性。图b是Mask Scoring RCNN在我们的mask score上的MaskIoU分布情况,具有相关性。图c显示定量结果,我们将每个MaskIoU区间的分数取平均值,可以看出我们的方法可以更好的将分数与MaskIoU对应起来。

这些图都说明,MASK RCNN的根据分类打分的方法,与MASKIoU没有相关性,即与mask的生成质量相关性低。

以上的所有分析,都促使我们针对每个检测假设(detection hypothesis),基于MaskIoU去学习校准的MASK得分。

为了不失一般性,基于MASK RCNN,提出MASK Scoring RCNN:一个具有额外MaskIoU head模块的Mask R-CNN,该模块学习MaskIoU对齐的Mask得分。

 

Mask scoring in Mask R-CNN

 

Mask head : 将ROI Align层的实例特征和预测的mask拼接作为输入,并预测输入mask和groundtruthmask之间的IoU。

takes the instance feature and the predicted mask together as input, and predicts the IoU between input mask and ground truth mask

我们定义Smask为预测的mask的分数,理想的Smask等于像素级别上的预测mask和Groundtruth之间的IoU,在之前的分析中也称之为MaskIoU。Smask应该只在对应Groundtruth相应的类别时存在,对于其他类别,Smak为0.

这就需要mask 得分需要完成两个任务:1.将mask分类为正确的类别。2. 为前景对象类别回归相应区域(proposal)的MaskIoU。(用maskiou精确mask打分?)

 This requires the mask score to works well on two task: classifying the mask to right category and regressing the proposal’s MaskIoU for foreground object category.

    因此我们将mask打分的任务分解为两部分:mask分类和IoU回归。定义:

                                                                     Smask = Scls · Siou

Scls focuses on classifying the proposal belong to which class and Siou focuses on regressing the MaskIoU.” 

网络结构:

Mask head 网络最后一层(FC全连接层)输出的是C个类别的MaskIoU。(是C个分数)

Mask head 回归过程

 为了训练MaskIoU head这个分支,我们用RPN区域作为训练样本。这个训练样本需要满足该区域的提出的box边框和GT之间的IoU大于0.5,这一点和Mask RCNN 的mask分支要求一样。为了为每一个训练样本生成回归目标,我们首先获得目标类别的预测的mask,并且根据阈值0.5,二值化这个mask。然后我们用二值mask和它相应的GT之间的MaskIoU作为MaksIoU回归目标。我们使用L2loss去回归MaskIoU。

For training the MaskIoU head, we use the RPN proposals as training samples. The training samples are required to have a IoU between proposal box and the matched ground truth box larger than 0.5, which are the same with the training samples of the Mask head of Mask R-CNN. For generating the regression target for each training sample, we firstly get the predicted mask of the target class and binarize the predicted mask using a threshold of 0.5。Then we use the MaskIoU between the binary mask and its matched ground truth as the MaskIoU target. We use the ℓ2 loss for regressing MaskIoU。

后面是实验结果评测,和一些消融实验。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值