机器之心原创
作者:朱艳芳
编辑:邱陆陆
图像分割(image segmentation)任务的定义是:根据某些规则将图片分成若干个特定的、具有独特性质的区域,并提出感兴趣目标的技术和过程。
目前图像分割任务发展出了以下几个子领域:语义分割(semantic segmentation)、实例分割(instance segmentation)以及今年刚兴起的新领域全景分割(panoptic segmentation)。
而想要理清三个子领域的区别就不得不提到关于图像分割中 things 和 stuff 的区别:图像中的内容可以按照是否有固定形状分为 things 类别和 stuff 类别,其中,人,车等有固定形状的物体属于 things 类别(可数名词通常属于 things);天空,草地等没有固定形状的物体属于 stuff 类别(不可数名词属于 stuff)。
语义分割更注重「类别之间的区分」,而实例分割更注重「个体之间的区分」,以下图为例,从上到下分别是原图、语义分割结果和实例分割结果。语义分割会重点将前景里的人群和背景里树木、天空和草地分割开,但是它不区分人群的单独个体,如图中的人全部标记为红色,导致右边黄色框中的人无法辨别是一个人还是不同的人;而实例分割会重点将人群里的每一个人分割开,但是不在乎草地、树木和天空的分割。
全景分割可以说是语义分割和实例分割的结合,下图是同一张原图的全景分割结果,每个 stuff 类别与 things 类别都被分割开,可以看到,things 类别的不同个体也被彼此分割开了。
目前用于全景分割的常见公开数据集包括:MSCOCO、Vistas、ADE20K 和 Cityscapes。
COCO 是微软团队公布的可以用来图像 recognition、segmentation 和 captioning 的数据集,主要从复杂的日常场景中截取,主要有 91 个类别,虽然类别比 ImageNet 少很多,但每一类的图像很多。
Vistas 是全球最大的和最多样化的街景图像数据库,以帮助全球范围内的无人驾驶和自主运输技术。