摘要:
- 新的任务场景——全景分割 Panoptic Segmentation:
统一了实例分割(Instance Segmentation) 和语义分割(Semantic Segmentation).
实例分割 - 检测每个 object instance,并进行分割;
语义分割 - 对每个像素分类.
- 新的评价指标 —— panoptic quality(PQ) metric
- basic算法 —— 结合实例分割和语义分割的全景分割方法,输出全景结果.
1、Introduction
PS的task:(1)包含stuff和thing类 (2)使用一个简单但常用的输出格式 (3)介绍一个统一的评价指标
全景分割(PS,Panoptic Segmentation)的task format: 每个像素点都必须被分配给一个语义标签(stuff、things中的各个语义)和一个实例id。具有相同标签和id的像素点属于同一目标;对于stuff标签,不需要实例id。
作者认为目前分割任务在things或stuff之间分别进行而非统一分割的一个很重要的原因是缺少合适的度量矩阵。因此,文中提出了一种适用于二者的panoptic quality(PQ) metric。
与语义分割相比,全景分割的困难在于为了区分不同类别的实例,全卷积网络(FCN)的设计要更困难一些;
与实例分割相比,目标的分割必须是非重叠的(non-overlapping),因此对那些每个目标单独标注一个区域是不同的。
生成一致的图像分割,以解决stuff 和 thing 之间的不一致性是迈向现实应用的重要一步。
执行实验对PS的性能进行初步研究:
(1)方法:定义了一个简单的、可能是次优的启发式方法,它结合了两个独立系统的输出,通过一系列合并它们的输出的后处理步骤(本质上是一种复杂的非最大抑制形式)来进行语义和实例分割。该启发式方法为PS建立了一个基线,并让作者深入了解它所带来的主要算法挑战。
(2)3个语义分割数据集:
2、Related Work
3、Panoptic Segmentation Format
Task format: 全景分割的任务要求一个算法能够将图片内的每一个像素点ii ii投射成(li,zi)(li,zi) (l_i,z_i)(li,zi),其中lili l_ili是其语义分割的类别,zizi z_izi是其实例分割的id。具有不同zi标注的像素点会被聚集成不同的部分。模棱两可或无法确定类别的点可以被赋予一个空标注,也就是说不是所有的点都必须有一个语义标注。
Stuff and thing labels: 这里,所有语义类别都要么属于stuff,要么属于thing,不会有一个类别既属于Stuff又属于thing。且,如果一个像素被标注为stuff,那么其实例类别就无所谓了,即默认所有具有相同stuff类别的物体都被认为是同一样东西(如都是蓝天);否则,只有具有相同实例类别的点才会被标注成同类目标(如同一辆车)。
与语义分割的关系: 如果所有的类别都是stuff,那么PS确实与语义分割相同(但task metrics不同)。且引入了thing类别后,图片中可能出现多个实例,这也对分割造成了影响。
与实例分割的关系: PS中不允许重叠,但是实例分割中可以有重叠区域。
Confidence scores: 与语义分割相同但不同于实例分割,PS不需要每个segment的置信概率。尽管不提供置信概率更贴近人类认知世界的方法;但是对于底层机器而言,置信概率还是有用的,因此论文作者提出也需要能够提供置信概率的PS算法。
4、Panoptic Segmentation metric
论文作者认为,将stuff分割和thing分割统一起来的度量应当具有:
- 完整性:这个度量需要统一对待stuff和thing,将任务中所有方面都考虑到。
- 可解释性: 我们追求可定义的度量,因为其可以促进交流和理解。
- 简单:该度量应当定义简介,使用简单,能够被简单地复现。
考虑到上面几点,论文作者们提出了PQ度量,其涉及两步:(1)segment matching (2)给定matches下的PQ computation
4.1