Learning to Segment everything
目录
Learning to Segment everything
1 概述
实例分割(instance segmentation)是对每一个检测到的目标产生一个前景分割掩膜。目前,实例分割所能处理的类别只有100种左右,这只是实际视觉世界中的冰山一角。其主要原因是,先进的实例分割算法需要在强监督的条件下进行,而收集新的类别需要花费很多的功夫。相反地,对边框进行标注却并不需要花费很多的功夫。那么问题来了,我们是否可以不进行完整的实例分割标注,来进行最先进实例分割系统的训练呢?在本篇论文中,我们介绍了一种新的半监督实例分割任务,并且采用了一种新奇的迁移学习方法来解决这个问题。
我们半监督实例分割的描述如下:1)给出一个子数据集,其中即包含具有实例掩膜标注的样本,又包含仅有边框标注的样本。2)实例分割算法可以利用这些数据来分割任何类别的目标。由于训练集数据中既包含强标注的Masks,又包含弱标注的boxes,所以我们把这个任务称为半监督。
Visual Genome数据集中包含了很多类别的边框标记,COCO数据集中包含了很少量类别的掩膜标记。结合这两者,使用半监督vs弱监督进行训练,我们就可以构建一个更大规模的实例分割模型。这使得我们可以改造现有的最先进实例分割方法,来对成千上万种类别进行分割,而这种能力对现实世界中的应用来说是非常重要的。
我们基于Mask R-CNN提出了一种新奇的迁移学习来实现半监督实例分割。而Mask R-CNN把实例分割分为目标检测和掩膜预测两个子任务来处理,所以它刚好适合于实现我们的任务。这些子任务通过联合训练的heads网络来处理。这个想法背后的含义为:边框head的参数在经过训练之后,会对嵌入目标类别进行编码,然后对这些信息进行迁移,用于掩膜head的半监督学习。
我们通过设计一个权重转移函数来实现这个想法,函数的输入为边框检测参数,输出为某个种类的实例分割参数。这个权重函数可以使用掩膜标注进行端到端的训练。在推理的时候,权重函数预测每一个种类的实例分割参数,使得模型可以分割所有的目标类别,就算这些掩膜类别没有出现在训练过程中。
图1-1 分割结果示意图
我们的方法分为两个过程