1、摘要
视频实例分割(VIS)的最新进展在很大程度上是由使用更深入和越来越多的数据饥饿的基于transformer的模型驱动的。然而,视频掩码是繁琐和昂贵的注释,限制了现有的VIS数据集的规模和多样性。在这项工作中,我们的目标是删除掩码注释的要求。我们建议MaskFreeVIS,实现极具竞争力的VIS性能,同时只使用边界框注释的对象状态。我们利用丰富的时间掩模一致性约束的视频通过引入时间KNN补丁损失(TK损失),提供强大的掩模监督没有任何标签。我们的TK-Loss通过一个高效的补丁匹配步骤,然后是K-最近邻选择,在帧间找到一对多的匹配。然后对找到的匹配强制执行一致性丢失。我们的无掩模目标易于实现,没有可训练的参数,计算效率高,但优于采用例如最先进的光流来加强时间掩模一致性。
代码和训练模型可在https://github.com/SysCV/MaskFreeVis上获得。
2、介绍
我们提出了MaskFreeVIS方法,高性能的VIS没有任何掩码注释。为了利用时间掩码一致性,我们引入了Temporal KNN-patch Loss(TK-Loss),如图2所示。为了找到对应于相同底层视频对象的区域,我们的TK-Loss首先通过分片匹配跨帧建立对应关系。对于每个目标块,仅选择具有足够高匹配分数的相邻帧中的前K个匹配。然后将时间一致性损失应用于所有找到的匹配以促进掩码一致性。具体而言,我们的代理目标函数不仅促进一对k匹配区域达到相同的掩模概率,而且还提交他们的掩模预测的置信前景或背景预测熵最小化。与假设一对一匹配的基于流的模型[33,46]不同,我们的方法构建了鲁棒且灵活的一对k对应关系,以科普例如:在不引入额外的模型参数或推断成本的情况下,可以在不引入额外的模型参数或推断成本的情况下,对图像进行分类。
TK-Loss很容易集成到现有的VIS方法中,无需修改架构。在训练过程中,我们的TK-Loss简单地取代了监督视频掩码生成的传统视频掩码损失。为了通过视频剪辑进一步加强时间一致性,以循环方式采用TK-Loss,而不是使用密集的逐帧连接。这大大降低了内存成本,性能下降可以忽略不计。
我们的贡献总结如下:
(i)为了利用时间信息,我们开发了一种新的无参数的时间KNN-补丁损失,其利用无监督的一对k补丁对应的时间掩码一致性。
(ii)基于TK-Loss,我们开发了MaskFreeVIS方法,使得能够在没有任何掩模注释的情况下训练现有的最先进的VIS模型。
(iii)MaskFreeVIS是第一种获得高性能分割结果的无掩模VIS方法。
3、方法
我们提出MaskFreeVIS来处理视频实例分割(VIS),而不使用任何视频甚至图像掩码标签。我们的方法是通用的,可以直接应用于训练最先进的VIS方法,如Mask2Former 和SeqFormer 。
3.1. MaskFreeVIS
在本节中,我们将介绍Temporal KNN-patch Loss,如图3所示。它作为掩模预测的无监督目标,利用未标记视频中丰富的时空一致性约束。
3.1.1 Temporal Mask Consistency
虽然图像构成场景的单个快照,但视频提供了在时间上移位的多个快照。由此,视频描绘场景中的连续变化。对象和背景移动、变形、被遮挡、经历照明变化、运动模糊和噪声,从而导致通过逐渐变换而紧密相关的不同图像的序列。
考虑场景中的一个小区域(图2),属于对象或背景。对应于该区域的投影的像素在每个帧中应当具有相同的掩模预测,因为它们属于相同的底层物理对象或背景区域。然而,视频中的上述动态变化导致大量的外观变化,用作数据增强的自然形式。因此,对应于相同底层对象区域的像素在时间变化下应具有相同掩模预测的事实提供了强大的约束,即,时间掩码一致性,可用于掩码监督[22,25,33,52,53]。
利用时间掩模一致性约束的困难源于在视频帧之间建立可靠的对应关系的问题。物体经常经历快速运动、变形等,从而导致显著的外观变化。此外,场景中的区域可能被遮挡或从一个帧到另一帧移出图像。在这种情况下,不存在对应关系。最后,视频通常由同质区域(例如天空和地面)主导,其中一对一对应关系的建立容易出错甚至定义不清。
在后续视频帧之间建立密集的一对一对应关系的问题(称为光流)是一个长期存在且流行的研究课题。然而,当试图通过光流估计[25,33,44]来实施时间掩模一致性时,遇到两个关键问题。1)光流的一对一假设不适用于遮挡、均匀区域和沿着单个边缘的情况,其中对应性不存在、未定义、模糊、不确定或非常难以确定。2)最先进的光流估计依赖于大型且复杂的深度网络,具有大量的计算和存储器需求。
而不是使用光流,目标是设计一个简单,高效,无参数的方法,有效地执行时间掩模一致性约束。
3.1.2 Temporal KNN-patch Loss
我们的时间KNN补丁损失(TK损失)是基于一个简单而灵活的对应估计跨帧。与光流相反,我们不限制我们的配方一对一的对应关系。相反,我们建立一对K的对应关系。这包括传统的一对一(K = 1),其中存在唯一的明确定义的匹配。然而,这允许我们在遮挡的情况下处理不存在对应关系(K = 0)的情况,以及在同质区域的情况下处理一对多(K ≥ 2)的情况。在发现多个匹配的情况下,由于它们的相似外观,这些通常属于相同的底层对象或背景,如图2所示。这通过更密集的监督进一步有利于我们的掩模一致性目标。最后,我们的方法很容易实现,计算开销可以忽略不计,没有可学习的参数。我们的方法如图3所示,包含四个主要步骤,下面将详细介绍。
1) Patch Candidate Extraction:
令表示以帧t中的空间位置p =(x,y)为中心的N×N目标图像块。我们的目标是找到一组表示相同对象区域的帧编号Φ t中的对应位置
。为此,我们首先选择半径R内的候选位置p,使得
。这样的加窗块搜索利用相邻帧之间的空间接近性,以便避免穷举全局搜索。对于快速实现,并行地对所有目标图像块
执行加窗搜索。
2) Temporal KNN-Matching:
我们通过一个简单的距离计算来匹配补丁候选补丁,
在我们的消融实验中,我们发现L2范数是最有效的补丁匹配度量。我们选择具有最小补丁距离的前K个匹配。最后,低置信度匹配通过强制最大块距离D去除为
。对于每个位置p,剩余的匹配形成集合
。
3) Consistency loss:
令 ∈ [0,1]表示在帧t中的位置p处评估的对象的预测二进制实例掩码。为了确保时间掩模一致性约束,我们惩罚时空点(p,t)与其在
中的估计对应点之间的不一致掩模预测。特别地,我们使用以下目标,
请注意,方程式(3)只有当两个预测都准确地指示背景( )或前景(
)时,才能达到其最小值零。因此,目标不仅促进两个掩模预测以实现相同的概率值
,而且致力于某个前景或背景预测。
4) Cyclic Tube Connection:
假设时间管由T帧组成。我们以循环方式计算整个管的时间损失,如图4所示。开始帧连接到结束帧,这在两个时间上最远的帧上引入了直接的长期掩码一致性。整个管的时间TK损失由下式给出
与图4中的帧间密集连接相比,我们发现循环损失实现了类似的性能,但大大减少了内存使用,如实验部分所验证的。
3.2. Training MaskFreeVIS
在本节中,我们将描述如何使用我们的TK-Loss训练最先进的VIS方法,而无需任何掩码注释。
3.2.1 Joint Spatio-temporal Regularization
为了训练MaskFreeVIS,除了我们提出的用于时间掩模一致性的TK-Loss之外,我们还利用现有的空间弱分割损失来联合执行帧内一致性。
Spatial Consistency
为了探索来自图像边界框和像素颜色的空间弱监督信号,我们利用[51]中的代表性框投影损失Lproj和成对损失Lpair来代替监督掩码学习损失。投影损失Lproj强制对象掩模在图像的x轴和y轴上的投影P’与其地面实况框掩模一致。对于具有T帧的时间管,我们同时优化管的所有预测帧掩模为,
Temporal Consistency
我们采用TKNN补丁损失作为Ltemp以利用时间掩码一致性。用于优化视频分割的总体空间-时间目标Lseg被概括为,
3.2.2 Integration with Transformer-based Methods
关于框监督分割损失的现有工作[14,49]与一级或两级检测器相结合,例如Faster R-CNN [42]和CondInst [49],并且仅解决单个图像的情况。然而,最先进的VIS方法[6,58]是基于变压器的。这些工作通过集合预测来执行对象检测,其中在评估损失时,预测的实例掩码需要与掩码注释相匹配。为了将无掩模VIS训练与变压器集成,一个关键的修改是在该实例序列匹配步骤中。
由于只有地面实况边界框可用于框序列匹配,作为初始尝试,我们首先从估计的实例掩码产生边界框预测。然后,我们采用VIS方法中使用的顺序框匹配成本函数[56,58]。为了计算整个序列的匹配成本,跨帧平均每个单独边界框的L1损失和广义IoU损失。然而,我们观察到逐帧平均的匹配结果很容易受到单个离群帧的影响,特别是在弱分割设置下,导致训练过程中的不稳定性和性能下降。
Spatio-temporal Box Mask Matching
而不是使用前述的逐帧匹配,我们凭经验找到时空框到掩模匹配,以产生实质性的改善下的弱分割设置。我们首先将每个预测实例掩码转换为边界框掩码,并将地面实况框转换为框掩码。然后,我们分别从地面实况框掩码序列和预测框掩码序列中随机采样相等数量的点。与Mask2Former [6]不同,我们只采用骰子IoU损失来计算序列匹配成本。我们发现,交叉熵累积每个像素的错误,导致大小物体之间的不平衡值。相比之下,IoU损失在每个对象中归一化,导致平衡的度量。我们在消融实验中研究了无掩模VIS环境下不同的实例序列匹配策略。
3.2.3 Image-based MaskFreeVIS Pre-training
大多数VIS模型[6,58,62]都是从在COCO实例分割数据集上预训练的模型初始化的。为了完全消除掩码监督,我们在COCO上只使用框监督预训练我们的MaskFreeVIS。我们采用在第2节中描述的空间一致性损失,同时遵循COCO上相同的基于图像的训练设置。
因此,我们在实验中提供了两种训练设置,一种是在训练过程中消除图像和视频掩码,另一种是采用COCO掩码注释预训练的权重。在这两种情况下,不使用视频掩模注释。
4、Implementation Details
我们所提出的方法只需要取代原来的视频掩模损失,在国家的最先进的VIS方法。特别是,我们采用Mask2Former [6]和SeqFormer [58],因为它们具有出色的VIS结果。除非另有说明,否则我们将所有其他训练计划和设置与原始方法相同。
5. Conclusion
MaskFreeVIS是第一个在训练过程中不需要任何掩模注释的竞争性VIS方法。有力的结果导致了一个了不起的结论:掩模标签不是高性能VIS的必需品。我们的关键组件是无监督的时间KNN补丁损失,它取代传统的视频掩模损失利用时间掩模一致性约束。我们的方法大大减少了四个大规模基准的全监督和弱监督VIS之间的长期差距。因此,MaskFreeVIS为研究人员和从业人员提供了许多标签高效VIS的机会。
2021CVPR_High-performance instance segmentation with box annotations
我们提出了一种高性能的方法,可以实现掩码级的实例分割,只有边界框注释的训练。我们的核心思想是重新设计实例分割中的学习掩码损失,而不修改分割网络本身。新的损失函数可以在不依赖于掩码注释的情况下监督掩码训练。
这可以通过两个损失项来实现
1)使地面实况框的投影与预测掩模之间的差异最小化的替代项;
2)成对损失,其可以利用具有相似颜色的邻近像素很可能具有相同类别标签的先验。
第一项使预测mask的水平和垂直投影与ground-truth box之间的差异最小化。这确保了覆盖预测mask的最紧密框与ground-truth box匹配。由于ground-truth mask和ground-truth box在两个轴上具有相同的投影,因此这也可以被视为使预测mask和ground-truth mask的投影之间的差异最小化的替代项。当我们只有框注释时,可以计算该损失项。
显然,利用该投影项,可以将多个掩模投影到同一框。因此,光靠投影损失是不够的。因此,我们引入第二损失项,鼓励预测和地面实况掩码在邻近像素中具有相同的成对标签相似性。
乍一看,如果我们没有掩码注释,则无法计算地面实况掩码的成对相似性。在仅框注释可用的情况下,原则上,该成对监督信号不可避免地是噪声的。然而,重要的观察是,具有相似颜色的邻近像素非常可能具有相同的标签。因此,我们表明,从经验上看,确定颜色相似性阈值是合理的,使得在损失计算中仅使用具有相同标签的置信像素对(图2右下角的白色区域),从而大大消除了监管噪音。使用这两个损失项,我们实现了惊人的实例分割结果,而不使用任何掩码注释。
BoxInst很简单,因为它根本不修改CondInst的网络模型,仅使用不同的损耗项。这意味着所提出的BoxInst的推理过程与CondInst完全相同,因此自然继承了CondInst的所有期望属性。
Projection loss term.
第一项使用ground-truth box注释监督预测掩模的水平和垂直投影,这确保了覆盖预测mask的最紧密框与ground-truth box匹配。形式上,设 将ground-truth box中的box(图2右上角蓝色区域)赋值为1,其余区域赋值为0.
分别表示将mask投影到x轴和y轴上。时在X轴上一维的分割mask。
(我理解的是在0-W的维度上,只有这一段是1,其余的线段为0。
投影操作可以通过沿每个轴的最大操作沿着轴来实现。形式上,我们定义
(我的理解是,是在x轴,y轴的最大操作区间。)
是实例mask的网络预测,其可以被视为前景概率(即,标签为1)。我们应用等式的相同投影运算(公式2)映射到mask预测,并获得相应的投影
。然后,我们计算ground-truth box和预测mask的投影之间的损失。预测损失项定义为:
Pairwise affinity loss term.
在几乎所有的实例分割框架中,如Mask R-CNN和CondInst,它们以逐像素的方式监督预测mask。如果我们没有掩码注释,则逐像素监控变得不可用。
在这里,我们试图以成对的方式监督mask,我们将展示即使我们没有任何掩码注释,这种监督也可以部分可用。
现在假设我们有ground-truth mask, 考虑一个建立在图像上的无向图G =(V,E),其中V是图像中像素的集合,E是边缘的集合。每个像素都与它的 K×K−1个邻居相连(可以应用膨胀技巧),如图2左下角所示。然后我们定义为边e的标签,其中
= 1表示由边连接的两个像素具有相同的地面真实标签,
= 0表示它们的标签不同。
设像素(i,j)和(l,k)是边缘e的两个端点。网络预测可以被视为像素(i,j)是前景的概率。那么
= 1的概率是
按照惯例,来自网络预测的概率分布可以用二进制交叉熵(BCE)损失来训练。因此,损失函数为
其中Ein是包含框中至少一个像素的边缘的集合。在这里使用Ein而不是E可以防止丢失被框外的大量像素所支配。N是Ein中的边数。
如果仅使用成对损失来监督掩码学习(在完全监督的设置下),则理想情况下,可以获得两种可能的解决方案。第一个mask与ground-truth mask m相同,这是理想的。第二个解是逆1−m。幸运的是,只要我们有任何像素的已解析标签,第二种解决方案就可以很容易地消除。这可以通过投影损失项来实现,因为它确保框外的像素是背景。请注意,EIN中的边缘仍然包含框外的一些像素,这对于帮助模型消除不需要的解非常重要。总体而言,掩码学习的总损失可以表示为
我们将在实验中表明,重新设计的掩模损失可以在完全监督的设置中具有与原始像素相似的性能。