TensorMask: A Foundation for Dense Object Segmentation
用4D张量表示目标,为稠密的目标分割提供了基础。
摘要
滑动窗口目标检测器在稠密的规则网格上生成边界盒目标预测,已经得到了迅速的发展和广泛的应用。相比之下,现代的实例分割方法主要是先检测对象边界盒,然后裁剪和分割这些区域的方法,如mask r-cnn所推广的那样。在这项工作中,我们研究了密集滑动窗口实例分割的范例,这是令人惊讶的探索不足。我们的核心观察是,这项任务与其他密集预测任务(如语义分割或包围盒对象检测)有着根本的不同,因为每个空间位置的输出本身就是一个具有自身空间维度的几何结构。为了将此形式化,我们将密集实例分割作为4d张量上的预测任务,并提出了一个称为tensormask的通用框架,该框架显式地捕获了该几何体,并在4d张量上启用了新的算子。我们证明了张量视图比忽略这种结构的基线有更大的增益,并且得到了与掩模r-cnn相当的结果。这些有前途的结果表明,张力吸收可以作为密集掩模预测的新进展和对任务的更全面的理解的基础。
贡献
方法
我们的主要见解是,定义密集掩模表示的核心概念以及这些概念在神经网络中的有效实现都是缺乏的。与边界框不同,边界框具有固定的、低维的表示(无论大小),分段遮罩可以受益于更丰富、更结构化的表示。例如,每个遮罩本身都是二维空间地图,较大对象的遮罩可以受益于使用较大的空间地图。开发稠密掩码的有效表示是实现稠密实例分割的关键步骤。为了解决这个问题,我们定义了一组用高维张量表示掩码的核心概念,允许探索用于稠密掩码预测的新网络体系结构。
张量形式化表示的核心思想是使用结构化的4d张量来表示空间域上的掩模。这一观点与之前对使用非结构化三维张量分割类不可知对象建议(如deepmask[31]和instancefcn[7])的相关工作形成了对比,在这些工作中,遮罩被压缩到第三个“通道”轴中。与表示对象位置的轴不同,通道轴没有明确的几何意义,因此很难操作。通过使用基本信道表示,人们错过了利用结构阵列将掩模表示为2d实体的机会,类似于用于表示2d图像的mlps[35]和convnets[20]之间的差异。
表示
实验