SIM: Semantic-aware Instance Mask Generation for Box-Supervised Instance Segmentation
是一篇近年CVPR通过的一篇关于分割的论文,将语义分割与实例分割相结合,提出了新的研究方向。
论文链接:https://arxiv.org/abs/2303.08578
1.摘要
仅使用边界框注释的弱监督实例分割近年来引起了广泛的研究关注。目前的大多数工作都利用低级图像特征作为额外的监督,而没有明确地利用对象的高级语义信息,当前景对象与背景或附近的其他对象有相似的外观时,这将变得无效。提出了一种新的盒监督实例分割方法,基于生成范式的实例掩码(SIM)。我们构建了相邻像素之间的局部成对亲和力,将一组类别级特征质心作为原型来识别前景对象,并为它们分配语义级伪标签。考虑到语义感知原型不能区分同一语义的不同实例,我们提出了一种自校正机制来纠正错误激活的区域,同时增强正确的区域。此外,为了处理对象之间的遮挡,我们为弱监督的实例分割任务定制了复制-粘贴操作,以增加具有挑战性的训练数据。
2.介绍
实例分割是计算机视觉的基本任务之一,在自动驾驶、图像编辑、人机交互等领域有着广泛的应用。随着深度学习[6,12,34,38]的发展,实例分割的性能得到了显著的提高。然而,训练鲁棒分割网络需要大量具有像素级标注的数据,这消耗了大量的人力和人力资源。为了减少对密集注释的依赖,基于廉价监督的弱监督实例分割,如边界框[14,21,36]、点[8]和图像级标签[1,18],近年来引起了越来越多的研究关注。
在本文中,我们关注于框监督实例分割(BSIS),其中边界框为像素级预测任务提供了粗糙的监督信息。为了提供像素级的监督,传统的方法[10,19]通常利用现成的提议技术,如MCG [30]和GrabCut [31],来创建伪实例掩码。然而,这些方法的多个迭代步骤的训练管道是麻烦的。最近的几项工作,[14,36]通过将像素之间的成对亲和性作为额外的监督来实现端到端训练。虽然这些方法取得了很好的性能,但它们严重依赖于低级图像特征,如颜色对[36],并且简单地假设具有相似颜色的近端像素可能有相同的标签。当前景对象具有与背景或其他周围的物体相似的外观时,将导致混淆,如图1。因此,只使用低级图像线索进行监督,因为它们不足以代表物体的固有结构。
语义感知实例掩码(SIM)生成方法的管道。
(a)显示了仅使用低级别亲和监督产生的掩模预测,其中前景与背景严重混合。(b)和©展示了用我们构建的原型获得的语义感知掩码,它们可以感知对象的实体,但无法分离相同语义的不同实例。(d)显示了由我们提出的自校正模块所校正的最终实例伪掩模。
基于高级语义信息可以揭示对象实例的内在属性,从而为分割模型训练提供有效的监督,我们提出了一种新的语义感知实例掩码生成方法,即SIM,来明确地利用对象的语义信息。为了区分颜色相似但语义不同的近端像素(请参见图1 (a)),我们构建了一组具有代表性的数据集级原型,即不同类别的特征质心,以进行前景/背景分割,产生语义感知的伪掩模(见图1 (b))。这些从大量训练数据中提取的原型可以捕获对象的结构信息,使更全面的语义模式理解,这是对相邻像素的亲和监督的补充。但是,如图1 ©所示,这些原型无法分离相同语义的实例,特别是对于重叠的对象。因此,我们开发了一种自校正机制来校正假阳性,同时提高真阳性前景对象的置信度,从而产生更精确的实例感知伪掩模,如图1 (d).所示
值得一提的是,我们生成的伪掩模可以与分割模型共同进化,而不需要在以前的方法[10,21]中进行繁琐的迭代训练过程。此外,考虑到现有的弱监督实例分割方法由于缺乏地面真实掩模,只对罕见类别和重叠对象提供非常有限的监督,我们提出了一种在线弱监督复制粘贴方法来创建一个组合数量的增强训练样本。总的来说,这项工作的主要贡献可总结如下:
通过开发一种具有语义感知能力的实例掩码生成机制,提出了一种新的BSIS框架。具体来说,我们构建了一组具有代表性的原型来探索对象实例的内在属性,并识别完整的实体,这比低级特征产生更可靠的监督。
设计了一个自校正模块,使语义感知伪掩模成为实例感知模。错误激活的区域将被减少,正确激活的区域将被提高,使训练更加稳定,并逐步提高分割结果。
我们为弱监督的分割任务定制了复制-粘贴操作,以创建更多的遮挡模式和更具挑战性的训练数据。整个框架可以以端到端的方式进行训练。大量的实验证明了我们的方法优于其他最先进的方法。
3.相关工作
实例分割(IS)是计算机视觉领域的一项基本任务,其目的是预测图像中每个感兴趣的实例的像素级掩模。许多性能最好的IS方法[6,15,25,42]遵循Mask RCNN元架构[12],它将IS任务分成两个连续的阶段,并对提取的区域建议进行分割。单阶段IS方法在过去几年中也迅速发展。YOLACT [3]和[5]使用细粒度的FPN特性,而不是roi对齐的特性来进行掩模预测。但是,它们仍然需要进行作物操作来进行对象定位。有些方法以完全卷积的方式分割每个实例,而不诉诸于检测结果。例如,CondInst [34]和SOLO [38]使用了对实例进行感知的条件卷积,并动态地生成卷积内核来分割不同的对象。在DETR [4]中出现了通用的体系结构[7,41],并表明端到端集预测体系结构对于任何分割任务都足够通用。尽管这些方法很有前途,但严重依赖昂贵的像素级掩码注释,这限制了它们在许多实际应用中的可用性。
带有弱注释的弱监督实例分割(WSIS)是一个更有吸引力但更具挑战性的任务。一些工作试图通过盒级注释[14,17,21,36]或图像级注释[1,18]来实现高质量的分割。Khoreva等人[17]为WSIS使用盒子监督培训数据。然而,该方法依赖于区域建议技术,如GrabCut [31]和MCG [30],以离线的方式生成伪掩模。[21,37]最近的其他方法也专注于通过使用独立的网络来生成实例标签,这需要额外显著的显著数据[38]或一些后处理方法[21]。这不可避免地会导致一个复杂的培训管道。
为了实现一个简单而有效的训练管道,BBTP [14]将WSIS作为一个多实例学习问题,并引入了一个结构约束来维持估计掩模的统一性。BoxInst [36]建立在一个有效的CondInst [34]框架之上,并通过成对丢失强制具有相似颜色的近端像素具有相同的标签。尽管这些方法的性能很好,但它们在很大程度上依赖于局部颜色监督,而忽略了整个对象的全局结构。与这些方法不同的是,我们提出的方法通过利用高级语义信息提供了更可靠的监督,这有利于捕获对象的内在结构。
伪掩码生成。传统的弱监督语义分割方法(CAM)[44]是一种广泛采用的方法,其目的是从类标签中获得目标定位映射。然而,CAM只识别最具区别性的目标区域,并存在激活区域[2,13,16,32]有限的问题。考虑到边界框可以提供图像中对象的位置信息,BBAM [21]使用对象检测器生成边界框属性映射,作为伪地面真实掩码。作为一种更轻量级的方法,基于自训练的方法[22,43,48,49]选择对未标记数据的高评分预测作为训练的伪标签。在语义分割[22,45,46]中也探讨了基于原型分配标签的想法。在这项工作中,原型技术被用于捕获具有相同语义的对象的全局结构,从而减少了由低级特征监督引起的噪声。
4.方法
4.1概述
在盒监督实例分割(BSIS)设置中,我们给出了一组盒标注的训练数,其中N为图像数。此外,和表示类级和框级注释,其中K是实例的数量图像代表类别标签的第k对象在第n个图像,和指定相应的位置。
我们的方法概述如图2所示,其中建议的SIM模块在绿色虚线框中突出显示。我们选择CondInst [34]和Mask2Former [7]作为基本的分割网络,因为它们简单和有效。我们采用一组语义级的原型来捕获对象的全局结构信息,并通过计算每个像素级特征向量与所有原型之间的距离来生成语义概率图质谱,而不是依赖像素之间的关系,而不是仅仅依赖像素之间的局部成对亲和性作为监督[14,36]。由于这些原型无法分离具有相同语义的不同对象,我们提出了一种自修正机制,通过使用实例概率映射来停用错误估计的对象。该图可以通过将同一实例对应的不同正掩模与基于IoU的加权策略进行积分得到。最后,我们采用两个阈值来选择可信的预测作为伪地面事实ˆM,并将它们用于训练分割网络的。
图2 我们提出的语义感知实例掩码(SIM)生成方法的框架
该模型包含了主分割网络Fseg及其动量更新版本F 0seg。给定一个图像X,我们首先将其通过Fseg和F 0seg,得到相应的掩模特征Z和z0。然后将原型更新为特征簇质心的移动平均值。接下来,我们通过测量原型与掩模特征z0之间的距离,得到语义概率映射质谱。然后,通过实例概率图MI对MS中错误激活的实例进行校正,通过对同一地面真实对象的不同正掩模进行校正。最后,我们通过选择具有两个阈值的高度自信像素,得到伪掩模ˆM。
4.2具有语义感知能力的实例掩码生成
4.2.1伪语义映射
低级别的图像特征,如颜色、强度、边缘、斑点等,可以为识别图像中的物体边界提供有用的指导。然而,这些特征随着光照、运动模糊和噪声的变化而显著不同。因此,当对象实例与背景严重混合时,只使用低级特性作为BSIS的监督,这很容易出错。为了解决这个问题,我们试图探索对象的内在结构作为语义指导,以为BSIS模型训练提供更健壮的监督。
我们构造了一组具有代表性的原型来建模对象的结构信息,并使用它们来生成语义感知的伪掩模。考虑到单个原型不足以捕获类内的方差,我们使用多个原型[29,45]来表示一个类别中的对象。具体来说,我们从每个类中提取L个原型(即子中心),用表示,以描述同一类别的不同特征。给定一个输入图像,我们首先通过分割模型获得特征地图,并规范化齐,其中zi表示第i特征向量Z长度d。语义分割只预测每个输入图像的一个掩码,我们预测的掩码数量取决于图像中类别的数量。为此,我们计算第c类对应的语义概率图,用表示,公式如下:
其中,计算两个`2归一化特征向量之间的余弦相似度。sigmoid函数σ(·)将特征距离转换为像素属于第l个子中心的概率,τ控制表示的集中程度。一旦计算完成,我们根据它们的类别标签Y_n将这些语义概率图分配给不同的对象。
多原型更新。我们用在以前的小批量中计算的簇质心的移动平均实时更新原型。具体来说,给定一个图像Xn及其对应的伪掩模ˆM,我们通过优化以下目标函数得到第c类的像素级聚类赋值Q:
上述公式是最优传输问题[9],实例表示传输分配,并被限制为一个概率矩阵约束Q,Nc像素属于c类别的数量,Nc为属于第c类的像素数,H为带有的熵函数,ε控制分布的平滑度。和分别是Q在其行和列上的边缘投影,其中1L和1Nc表示维数L和Nc的1的向量。
通过将聚类分配定义为一个最优传输问题,Sinkhorn-Knopp算法可以在线性时间内解决关于Q的等式2的优化问题:
其中u∈RL和v∈R Nc是两个重归一化向量。最后,我们将原型更新为簇质心的移动平均值。特别是,在每次迭代t中,原型被估计为:
其中,λ∈[0,1]为动量系数。p c n,l表示图像Xn中第c类的第l个子中心,计算方法为:
其中是一个指示函数,如果,l=为1。
对原型的评论。[36]中使用的成对损失探索了像素到像素之间的相关性,这提供了局部监督,但不能确保具有相同语义的对象的全局一致性。相比之下,原型探索像素到中心的关系,这可以确保对象的完整性,并提供更可靠的监督。此外,由于原型是从大量的训练数据中提取出来的,它们可以揭示物体的内在特性,并过滤出图像特定的噪声和异常值。此外,我们平等地对待不同的类别,并为每个类别设置相同数量的原型,这可能有助于识别长尾对象。
4.2.2自校正
虽然伪语义掩模MS可以从全局的角度提供更可靠的监督,但它们不能区分相同语义的不同对象,特别是当对象之间存在重叠或遮挡时。为了克服这一限制,我们提出了一个简单而有效的自校正模块,它可以将语义感知掩码MS升级为实例感知模块。
正面面罩加权。让我们首先回顾一下无锚检测器的一些特性,如FCOS [35]。在这些工作中,锚点表示密集的特征点,正样本表示位于每个物体的中心/bbox区域的锚点。这些方法将多个阳性样本分配给每个物体,这些样本在地面真实值(gt)盒上有足够高的交叉点。然而,如图3 (a).所示,不同阳性样品生产的口罩质量差异显著,这些模糊的锚点,即同时作为多个gt对象的阳性样本的锚点(图3中的红点),不能分离出相同语义的重叠对象。基于这些观察结果,我们提出了一种正掩模加权策略,根据不同的掩模的质量进行集成,从而获得高质量的实例感知掩模MI。具体来说,我们定义了一个基于预测盒和gt盒之间的IoU的掩模质量度量:
其中,µ控制了不同权重之间的相对差距。然后,将每个权值wpos与所有正样本的权值之和进行归一化。如图3 (b)中可以看出,伪实例掩模MI可以更好地分离不同的对象,提供更准确的监督。
假面罩丢失。通过使用MI,可以抑制MS中错误激活的对象或像素,同时增强前景对象的信心。整改过程如下:
其中,ˆMk,iprob表示第k个伪概率图的第i个像素,而α∈[0,1]控制调制的强度。最后,我们设置两个阈值τhigh和τlow,选择高度自信的前景和背景预测作为伪标签,得到ˆM。伪监督掩模损失的定义为:
其中,掩模丢失掩模由两项组成:二进制交叉熵损失
bce和dice损失[28]`骰子ˆMk为第k个阳性样本的伪掩模。W是一个二进制权重掩模,通过使用τhigh和τlow忽略了模糊区域,即Wi = 0,if τlow <ˆMi prob < τhigh。
3.3 Online Weakly-Supervised Copy-Paste
可感知对象的复制粘贴方法是提高数据效率的一种简单而有效的方法。然而,复制粘贴很少被探索为弱监督的实例分割。使用伪掩模作为指导,从图像x中切割对象实例是很自然的。为了实现在线复制粘贴,我们建立了一个先入先出的存储库M来存储前一个小批量的训练样本及其对应的伪掩码,确保了M中的伪掩码可以实时更新。
对于每个训练迭代,我们随机抽样一个图像{X0,Y 0,B0,ˆM0,S0}从M和提取一个子集的实例从X0基于重要性采样,S0测量实例的重要性(更多细节请参考补充材料),这样实例与高质量的面具更有可能被选择。我们将提取的对象粘贴到输入图像{X,Y,B}上,并相应地进行调整,即去除完全遮挡的对象,更新部分遮挡对象的掩模和边界框。最后,我们只计算所粘贴的实例上的掩模损失:
其中,✶paste是指示器函数,如果第k个实例是从X0复制的,则为1。
3.4 目标函数
如图2所示,我们使用了一个动量编码器来稳定伪掩模生成过程。通过优化以下损失函数Lseg来更新分割模型的参数:
其中,λ1和λ2是两个权衡参数。低水平表示在BoxInst [36]中定义的低水平的成对监督。低级别和Lspepe分别从本地和全球的角度提供互补的监督,并共同努力,以弥补盒子监督和完全监督设置之间的性能差距。
5.实验
我们在COCO和PASCAL VOC 数据集上进行了实验。这个模型在train2017训练,这个数据包含了来自80个类别的大约11.5k张图片,只有方框注释。我们使用val2017(5k图像)进行消融研究,并使用test-dev2017(20k图像)与其他方法进行比较。
5.1实验细节
我们采用CondInst [34]和Mask2Former [7]作为我们的基线。对于CondInst,使用FPN的主干在ImageNet上进行预训练。除非有说明,培训和测试细节遵循CondInst1。利用[36]中提出的投影损失和成对损失进行10k迭代预热,然后在8 TITAN RTX GPUs上添加批大小为16的伪监督损失和复制粘贴损失,进行80k迭代训练。当使用ResNet作为骨干时,我们的模型使用SGDM优化器进行训练。初始学习速率设置为0.01,在步骤60k和80k时分别降低了10倍。当使用SwinT [26]作为主干时,我们采用AdamW [27]优化器,并将初始学习率设置为0.0001。对于Mask2Former,我们遵循它的基线设置2,并用我们设计的损失项替换原始的像素级掩模损失。内存库的长度设置为100,我们从每张图像中提取四分之一的实例,每个图像有1∼3个实例。用于更新网络和原型的动力分别设置为0.9999和0.999。调制强度α根据经验设置为0.5。此外,λ1、λ2、µ和τ都是emp
5.2与技术前沿比较
我们在COCO [24]数据集上比较了所提出的SIM方法和最先进的BSIS方法。并比较了完全监督的方法作为参考。如表1所示。在ResNet- 101-FPN骨干和3个×训练计划下,SIM比BoxInst [36]和BoxLevelSet [23]分别多出1.6%和1.4%。这是因为我们使用数据集级的原型来利用对象的语义信息,同时过滤掉特定于图像的琐碎噪声。还可以看到,我们的SIM方法在小物体上产生了令人印象深刻的结果,主要比ResNet-101-FPN骨干的BoxInst和BoxLevelSet分别多出2.8% AP和1.8% AP。
表2展示了在Pascal VOC [11]数据集上的分割结果。我们的方法在ResNet-50和ResNet-101骨干中,我们的方法分别比BoxInst [36]好2.4%和2.1%。BoxLevelSet [23]取得了相当的性能,因为水平集模型可以演化出物体的精确轮廓,这有利于大型物体。
5.3定性结果
图5显示了我们的方法和BoxInst对COCO val分割的定性分割结果。我们有以下的观察结果。首先,根据(a),通过利用语义级监督,我们的方法能够分割与背景或其他具有类似外观的对象严重纠缠的前景实例,因为原型探索对象的全局结构信息,可以减少仅使用局部成对亲和监督所带来的噪声。其次,正如在(b) ©中可以看到的,我们的方法可以更好地分离相同语义的重叠实例,因为我们引入了自校正模块来减少错误激活的实例,同时增强正确的实例。第三,如(d)和(f)所示,得益于从大量的训练数据中提取原型,我们的方法能够感知对象实例的整个实体,并产生更好的分割结果。
5.4消融实验
我们在COCO数据集上进行消融研究,使用ResNet-50-FPN骨干和1个×训练计划,以研究每个组件在我们的框架中的作用。报告了COCO val拆分上的掩码AP。
这两个损失的贡献。表3显示了两个损失项的贡献,即Lspupe和Lpaste。基线是BoxInst [36],它利用近端像素之间的颜色相似性作为监督。提出的伪掩模损失提高了1.2% AP,特别是在大对象(1.7% AP)。这表明,通过引入语义感知的实例掩码生成范式,我们的方法不仅可以区分具有颜色相似的近端像素,而且还可以区分具有相同语义的重叠对象。此外,在线弱监督复制粘贴丢失进一步提高了0.3%的AP,而对小对象APS的性能大大提高了1.1%的AP。
调制强度的影响。我们使用实例感知的伪概率映射MI,通过使用参数α来调制语义感知的映射MS。表4通过将α设置为不同的值来显示结果。我们可以得出结论,语义掩码MS和实例掩码MI的集成比其他任何一种都能得到更好的结果。具体来说,MS通过探索来自整个数据集的语义信息,促进了更整体的对象模式理解,而MI对MS中错误激活的对象进行了修正,提高了伪掩模的可靠性。删除自校正模块,即将α设置为0,将导致性能明显下降1.7%的AP。这并不奇怪,因为语义掩码包含了某些由错误激活的对象和像素引起的噪声监督。另一方面,没有语义掩码的训练,即将α设置为1,将使分割性能降低0.8%的AP。
语义掩码与实例掩码。我们通过在图6中可视化MS和MI来探索它们的互补性。从(b-d)中可以看到,MS可以从背景和其他对象中区分出具有相似外观但语义不同的对象实例。从a(e-f)中看出MI(实例分割)擅长区别相同语义的不同实例,抑制语义掩码错误激活的实例。它们共同作用为训练提供更可靠的监督。
权重的可视化。为了进一步理解正掩模加权策略的效果,我们在图7中显示了分配给不同正样本的权重的可视化。可以看出,大权重主要位于前景物体的中心区域,远离其他物体,而小权重主要位于模糊区域,如不同物体之间的重叠区域和前景与背景之间的连接。这种加权策略有助于生成更高质量的监督,并减少错误激活的实例。在补充文件中提供了关于这种加权策略的更多分析。
每个类别的原型数量的影响。我们为每个类别设置了多个原型,以更好地建模类内的变化。表5展示了分割结果w.r.t.每个类别的原型数量也有所不同。通过用一个原型表示每个类别,基线达到了31.6%的AP。通过将原型的数量增加到5个,有一个明显的性能改进(约0.4% AP);然而,当L超过10时,性能达到饱和。我们把L设为10来权衡准确性和成本。
6.结论
我们提出了一种新的盒监督实例分割的SIM方法。为了缓解来自低层次图像特征的成对亲和监督的局限性,我们通过从数据集中提取一组具有代表性的原型,并利用它们从背景中分割前景对象,探索了高级图像语义上下文。为了纠正语义掩模中可能存在的假阳性实例,我们通过加权整合不同阳性样本的掩模预测,引入了额外的监督。此外,我们设计了一种在线弱监督复制粘贴方法,通过装备一个不断更新的存储库来用伪掩模存储历史图像,来创建具有挑战性的训练数据。定性和定量实验都表明了我们的SIM方法优于最先进的性能。