论文链接:https://arxiv.org/abs/1712.04837
论文研究:
论文解决了实例分割的问题,即同时解决对象检测和语义分割的任务。论文提出了一个名为MaskLab的模型,它可以产生三个输出:box检测,语义分割和方向预测。建立在Faster-RCNN对象检测器之上,预测的框提供了对象实例的准确定位。在每个感兴趣区域内,MaskLab通过组合语义和方向预测来执行前景/背景分割。语义分割有助于模型区分包括背景在内的不同语义类的对象,而方向预测,估计每个像素朝向其相应中心的方向,实现分离同一语义类的实例。
目前技术不足:
目前最先进的实例分割模型FCIS [1]采用位置敏感的[2]内/外得分图来编码前景/背景分割信息。内部/外部分数图的使用成功地在每个预测的边界框内分割了前景/背景区域,但由于背景编码的冗余,这也使输出通道的数量加倍。
另一方面,先前[3]的工作产生三个输出:语义分割,实例中心方向(预测像素朝向其对应实例中心的方向)和深度估计,然而,随后又要采用复杂的模板匹配来解码预测的方向以进行实例检测。
论文改进点:
论文针对以上两个不足,一方面,采用包括背景类的像素方式分类信息的语义分割预测来区分不同语义类别(例如,人和背景)的对象,从而去除[1]中的背景编码冗余,另一方面,方向预测用于分离相同语义标签的对象实例。论文模型采用了与[1,2]中相同的组装操作来收集方向信息,从而摆脱了[3]中使用的复杂模板匹配。
除此之外,论文还采用