论文链接:https://arxiv.org/abs/1903.00241?context=cs
简介
对于一个深度神经网络来讲,如何评估该网络本身的预测质量是一个有趣并且有难度的任务。
在实例分割中,实例分类的置信得分被用作掩膜质量评估。然而,使用实例掩膜和实例GT计算的IoU得分,往往与分类得分不相关联。(问题)该篇文章探索这个问题并且提出了包含有一个学习评估预测到的实例掩膜质量的网络块的Mask Scoring R-CNN。该网络块同时考虑了实例特征和对应的预测掩膜来做掩膜IoU的计算。这个掩膜得分机制校准了掩膜质量和掩膜得分之间的偏差,并且通过在COCOAP的预估中优先考虑更准确的掩膜预测而提升了实例分割性能。通过在COCO数据集上的大量评估,该网络使用不同的模型都能获得一致的显著提升,并且超出了最佳的Mask R-CNN 的性能。
一、引言
深度神经网络极大地推动了计算机视觉的发展,包括在图像分类、物体检测和语义分割等领域。从以上发展中能够看出深度神经网络已经慢慢的从实现图片级的预测向区域/框级、像素级和实例级的预测发展。实现精细的预测不仅需要更多的细标注,同时也需要更多精心设计的网络。
文章关注实例分割问题,它是目标检测的进一步,从粗糙的框级实例辨别到细致的像素级分类。特别的,文章提出了一个新颖的方法,用来评估实例分割得分。大多数的评估机制根据假设的得分定义,更精确的得分能够帮助更好的提升模型性能。比如说,精度-召回曲线和AP经常用在COCO分割的挑战中,如果某一个实例分割假设没有被正确评分,就可能会被错看作FP或者FN,这会导致AP的下降。
然而在大多数实例分割流程当中,比如Mask R-CNN和MaskLab,他们的实例掩膜得分与框级分类得分共享,先在提议区域上进行分类再进行对应类别物体掩膜的预测。使用分类置信得分去衡量掩膜质量的方法是不合适的,因为分类只是分辨了提议区域的语义类别,并且忽略了实例掩膜其实际的质量和完整性的考虑。这种在分类得分和掩膜质量间的错位如下图1所示。
从上图中可见,使用原先的实例分割网络,虽然得分很高,但只是box位置和box分类比较准确,其mask质量却不够好,使用文章的网络可以看到,当出现这种情况时,得分会相对较低,而对于mask、class和box都很好的情况,文章网络的计算得分也很高。可以看到,如果对于掩膜的得分使用分类得分会导致评估结果的下降。
之前的网络致力于获得更准确的实例位置和分割掩膜,文章关注的是如何对掩膜评分,也就是掩膜评分机制。为了实现这个目的,文章模型学习如何为每一个掩膜评分而不是使用他们对应的类别得分。文章成这种学习得到的得分为掩膜得分(mask score)。受到AP的启发,文章提出了一个网络来直接学习IoU,文章中用MaskIoU表示。一旦在测试阶段获得了MaskIoU的预测值,掩膜得分就会通过将预测的MaskIoU和分类得分相乘来被重新评估。因此,得到的mask得分是能同时表征语义类别和实例掩膜的完整性的。
由于学习掩膜得分需要比较预测的掩膜和实例特征,因此这个任务与区域提议分类和掩膜预测任务都十分不同。使用Mask R-CNN的网络结构基础上,文章搭建了用于预测MaskIoU的网络头,命名为MaskIoU head。该网络头将掩膜头的输出和RoI特征作为输入,并且使用一个简单的回归loss进行训练。大量的实验结果说明我们的方法对于掩膜质量和得分上的偏差有一致的减弱效果,从而提升实例分割性能。总而言之,文章的贡献主要有以下两点:
1、文章提出的Mask Scoring R-CNN网络,这个网络是第一个说明目前的实例分割评估存在的问题的,它为提升实例分割性能探索了一个新的方向。由于考虑了实例掩膜的完整性,当某个实例的分类得分很高但是掩膜质量不高时,实例掩膜的得分会得到相应的惩罚而降低。