这篇文章的主要内容可以总结如下:
研究背景与问题
多目标跟踪(MOT)是计算机视觉中的一个基本问题,广泛应用于自动驾驶等机器人系统中。当前的MOT方法主要依赖于标注的特定领域视频数据集,这限制了模型的跨领域泛化能力。学习有效的物体关联通常需要大量的标注数据,尤其是在视频上获取跟踪标签非常具有挑战性。
研究目标
本文提出了一种名为**MASA(通过分割任何物体进行匹配)**的新方法,旨在从任何领域的未标注图像中学习物体级别的关联,从而实现跨不同领域的通用物体跟踪。MASA利用Segment Anything Model(SAM)的丰富物体分割信息,通过广泛的数据变换学习实例级别的对应关系。
方法概述
-
MASA管道:通过应用不同的几何变换和SAM的分割能力,自动建立像素级别和实例级别的对应关系,从而创建自监督信号,用于学习判别性物体表示。
-
MASA适配器:设计了一个通用的适配器,可以与现有的分割或检测模型(如SAM、Detic和Grounding-DINO)协同工作,使它们能够跟踪任何检测到的物体。适配器通过多任务训练管道,联合执行检测知识的蒸馏和实例相似性学习,进一步提高模型的泛化能力。
实验与结果
在多个具有挑战性的MOT和MOTS基准测试中,MASA在零样本关联设置下表现出色,甚至优于使用完全标注的特定领域视频序列训练的最先进方法。实验结果表明,MASA在复杂领域中具有强大的零样本跟踪能力,且能够有效扩展到不同的检测和分割模型。
结论
MASA通过利用SAM的详尽实例级别形状和外观信息,从未标注图像中学习可泛化的实例关联,展示了出色的零样本关联性能。此外,MASA适配器可以添加到任何现有的检测和分割模型中,使它们能够跨不同领域高效跟踪任何物体。
主要贡献
-
提出了一种新的自监督学习方法,能够在无需标注数据的情况下学习物体级别的关联。
-
设计了一个通用的适配器,能够与现有的分割和检测模型协同工作,增强其跟踪能力。
-
在多个基准测试中展示了MASA的强大性能,尤其是在零样本关联设置下。
文章还指出了MASA的局限性,如处理检测或分割结果在视频帧之间的时间不一致性,以及缺乏长期记忆系统来处理遮挡问题。未来的研究将致力于解决这些问题,以进一步提高模型的鲁棒性和稳定性。这里是自己的论文阅读记录,感兴趣的话可以参考一下,如果需要阅读原文的话可以看这里,如下所示:
官方项目主页 在这里,如下所示:
官方项目地址在这里,如下所示:
摘要
在复杂场景中,跨视频帧对相同物体进行稳健的关联对于许多应用至关重要,尤其是多目标跟踪(MOT)。当前的方法主要依赖于标注的特定领域视频数据集,这限制了学习到的相似性嵌入的跨领域泛化能力。我们提出了MASA,一种用于稳健实例关联学习的新方法,能够在无需跟踪标签的情况下跨不同领域匹配视频中的任何物体。通过利用Segment Anything Model(SAM)丰富的物体分割信息,MASA通过广泛的数据变换学习实例级别的对应关系。我们将SAM的输出视为密集的物体区域提议,并从大量图像集合中学习匹配这些区域。我们进一步设计了一个通用的MASA适配器,可以与基础的分割或检测模型协同工作,使它们能够跟踪任何检测到的物体。这些组合在复杂领域中表现出强大的零样本跟踪能力。在多个具有挑战性的MOT和MOTS基准测试中进行的广泛测试表明,所提出的方法仅使用未标注的静态图像,在零样本关联中的性能甚至优于使用完全标注的特定领域视频序列训练的最先进方法。我们的代码可在github.com/siyuanliii/masa获取。
1 引言
多目标跟踪(MOT)是计算机视觉中的一个基本问题。它在许多机器人系统中起着关键作用,如自动驾驶。跟踪需要检测视频中的感兴趣物体,并在帧之间对其进行关联。尽管最近的视觉基础模型[33, 35, 40, 47, 70, 78]展示了检测、分割和感知深度的卓越能力,但在视频中关联这些物体仍然具有挑战性。最近成功的多目标跟踪方法[36, 66]强调了学习判别性实例嵌入以实现准确关联的重要性。一些方法[46]甚至认为,除了检测之外,这是唯一必要的跟踪组件。
图1. 给定来自任何领域的未标注图像,我们对图像应用强增强,φ(·) 和 ϕ(·),生成两个具有自动建立的像素对应关系的不同视图。然后,我们利用基础分割模型SAM编码的丰富物体级别信息,将像素级别的对应关系转换为密集的实例级别对应关系。这种对应关系使我们能够利用多样化的未标注图像集合,在任何分割或检测基础模型(例如SAM)之上训练一个通用的跟踪适配器。该适配器使基础模型能够跟踪它们检测到的任何物体,并在复杂领域中展现出强大的零样本跟踪能力。
然而,学习有效的物体关联通常需要大量的标注数据。尽管在多样化的图像集上收集检测标签是费力的,但在视频上获取跟踪标签则更具挑战性。因此,当前的MOT数据集大多集中在特定领域的物体上,且类别数量有限或标注帧数有限。
在这些数据集上进行训练限制了跟踪模型对不同领域和新概念的泛化能力。尽管最近的研究[35, 40, 78]在解决物体检测和分割的模型泛化问题上取得了成功尝试,但学习一个能够跟踪任何物体的通用关联模型的路径仍然不明确。
我们的目标是开发一种能够匹配任何物体或区域的方法。我们旨在将这种可泛化的跟踪能力与任何检测和分割方法集成,帮助它们跟踪任何检测到的物体。一个主要的挑战是在不产生大量标注成本的情况下,获取跨不同领域的通用物体的匹配监督。
为此,我们提出了**通过分割任何物体进行匹配(MASA)**管道,从任何领域的未标注图像中学习物体级别的关联。图1展示了我们的MASA管道的概述。我们利用基础分割模型SAM编码的丰富物体外观和形状信息,结合广泛的数据变换,建立强大的实例对应关系。
对同一图像应用不同的几何变换,可以在同一图像的两个视图中自动建立像素级别的对应关系。SAM的分割能力允许自动将属于同一实例的像素分组,从而促进从像素级别到实例级别的对应关系的转换。这一过程创建了一个自监督信号,用于学习判别性物体表示,利用视图对之间的密集相似性学习。我们的训练策略使我们能够使用来自不同领域的丰富原始图像集合,证明这种在多样化原始图像上的自动自训练提供了出色的零样本多目标跟踪性能,甚至超过了依赖特定领域视频标注进行关联学习的模型。
除了自训练管道外,我们进一步构建了一个通用的跟踪适配器——MASA适配器,以增强任何现有的开放世界分割和检测基础模型(如SAM[35]、Detic[78]和Grounding-DINO[40]),使它们能够跟踪任何检测到的物体。为了保留它们原有的分割和检测能力,我们冻结了它们原有的骨干网络,并在顶部添加了MASA适配器。
此外,我们提出了一种多任务训练管道,联合执行SAM检测知识的蒸馏和实例相似性学习。这种方法使我们能够学习SAM的物体位置、形状和外观先验,并在对比相似性学习期间模拟真实的检测提议。该管道进一步提高了我们跟踪特征的泛化能力。此外,我们学习的检测头将原始SAM密集均匀点提议的分割速度提高了十倍以上,这对于跟踪应用至关重要。
我们在多个具有挑战性的基准测试上评估了MASA,包括TAO MOT[17]、开放词汇MOT[37]、BDD100K上的MOT和MOTS[71]以及UVO[55]。广泛的实验表明,与在彻底标注的特定领域视频上训练的最先进的物体跟踪方法相比,我们的方法在使用相同模型参数的单一模型下,在零样本关联设置中实现了相当的甚至更好的关联性能。
2 相关工作
学习实例级别的关联
学习稳健的实例级别对应关系对于物体跟踪至关重要。现有方法可以分为自监督[58]和监督[9, 36, 44, 46, 57, 63, 65, 66, 72, 76]策略。具体来说,作为自监督方法的代表,UniTrack[58]尝试直接使用现成的自监督表示[11, 64]进行关联。尽管在某些基准测试[45]中取得了有竞争力的结果,但这些方法无法充分利用实例级别的训练数据,限制了它们在具有挑战性的场景中的性能。相比之下,监督方法通过对比学习在帧对上训练判别性实例嵌入。尽管在具有挑战性的基准测试[17, 37, 41, 50, 71]中取得了优异的性能,但这些方法依赖于大量的特定领域标注视频数据。一些方法[2, 20, 37, 77, 79]从静态图像中学习跟踪信号,但仍然需要特定领域中大量的细粒度实例标注或后验测试时适应[53],限制了它们的跨领域泛化能力。为了解决这些问题,我们利用SAM编码的详尽物体形状和外观信息,仅从未标注图像中学习通用实例匹配。我们学习的表示在跨不同领域的零样本关联能力上表现出色。
分割和跟踪任何物体的模型
Deva[14]、TAM[67]和SAM-Track[15]将SAM[35]与视频物体分割(VOS)方法(如XMem[13]和DeAOT[69])集成,以实现交互式管道,用于跟踪任何物体,其中SAM主要用于掩码初始化/校正,XMem/DeAOT处理跟踪和预测。SAM-PT[49]将SAM与点跟踪方法(如[24, 29, 54])结合进行跟踪。然而,所有这些方法都面临一些限制,如由于领域差距导致的掩码传播质量差,以及无法处理多个多样化的物体或快速进出场景的物体,这在自动驾驶等场景中很常见。我们的工作关注不同的方向。我们不是构建交互式跟踪管道或使用现成的VOS或基于点的跟踪器,而是通过利用SAM丰富的实例分割知识来学习通用关联模块。
3 方法
预备知识:SAM
SAM[35]由三个模块组成:(a) 图像编码器:一个基于ViT的重型骨干网络,用于特征提取。(b) 提示编码器:对交互点、框或掩码提示的位置信息进行建模。(c) 掩码解码器:一个基于Transformer的解码器,接受提取的图像嵌入与连接的输出和提示令牌,用于最终掩码预测。为了生成所有潜在的掩码提议,SAM采用密集采样的规则网格作为点锚点,并为每个点提示生成掩码预测。完整的管道包括基于贪婪框的NMS进行补丁裁剪,三步过滤,以及对掩码的重型后处理。有关SAM的“一切模式”的更多详细信息,请参阅[35]。
通过分割任何物体进行匹配
我们的方法由两个关键组件组成。首先,基于SAM,我们开发了一个新的管道:MASA(第3.2.1节)。通过该管道,我们从丰富的未标注图像集合中构建详尽的监督,用于密集的实例级别对应关系。这使我们能够在无需任何视频标注的情况下,学习强大的判别性实例表示,以跟踪任何物体。其次,我们引入了一个通用的MASA适配器(第3.2.2节),以有效转换冻结的检测或分割骨干网络的特征,用于学习可泛化的实例外观表示。作为副产品,MASA适配器的蒸馏分支还可以显著提高分割一切的效率。此外,我们还构建了一个统一的模型,用于联合检测/分割和跟踪任何物体(第3.2.3节)。我们的完整训练管道如图2所示。
3.2.1 MASA管道
为了学习实例级别的对应关系,之前的工作[36, 46, 65, 66, 76]严重依赖手动标注的特定领域视频数据。然而,当前的视频数据集[6, 45, 71]仅包含有限的固定类别范围。数据集的这种有限多样性导致学习到的外观嵌入针对特定领域进行了优化,给它们的通用泛化带来了挑战。
UniTrack[58]证明,通过对比自监督学习技术[8, 11, 64]可以从原始图像或视频中学习通用外观特征。这些表示利用大量未标注图像的多样性,可以在不同的跟踪领域中泛化。然而,它们通常依赖于干净的、以物体为中心的图像,如ImageNet[52]中的图像,或像DAVIS17[48]这样的视频,并专注于帧级别的相似性。这种关注导致它们无法充分利用实例信息,导致在具有多个实例的复杂领域中学习判别性实例表示的困难,如表7所示。
为了解决这些问题,我们提出了MASA训练管道。我们的核心思想是从两个角度增加多样性:训练图像多样性和实例多样性。如图1所示,我们首先从不同领域构建丰富的原始图像集合,以防止学习领域特定的特征。这些图像还包含复杂环境中的丰富实例数量,以增强实例多样性。给定图像I,我们通过在同一图像上采用两种不同的增强来模拟视频中的外观变化。通过应用强数据增强φ(I)和ϕ(I) ,我们构建了II的两个不同视图V1 和V2 ,从而自动获得像素级别的对应关系。
如果图像干净且仅包含一个实例,如ImageNet中的图像,可以应用帧级别的相似性,如[11, 64, 74]。然而,对于多个实例,我们需要进一步挖掘此类原始图像中包含的实例信息。基础分割模型SAM[35]为我们提供了这种能力。SAM自动将属于同一实例的像素分组,并提供检测实例的形状和边界信息,这对于学习判别性特征非常有价值。
由于我们通过选择包含多个实例的图像来构建数据集,SAM对整个图像的详尽分割自动生成密集且多样的实例提议集合Q。在建立像素级别对应关系后,对Q应用相同的ϕ(⋅)和φ(⋅),将像素级别对应关系转换为密集的实例级别对应关系。这一自监督信号使我们能够使用[34, 36, 46]中的对比学习公式来学习判别性对比嵌入空间:
该对比学习公式将属于同一实例的物体嵌入拉近,同时将不同实例的嵌入推远。如现有工作[10, 46]所示,负样本对于学习判别性表示至关重要。在对比学习范式下,SAM生成的密集提议自然提供了更多的负样本,从而增强了学习更好的实例表示以进行关联。
图2. MASA训练管道。给定来自任何领域的未标注图像,SAM自动为其生成详尽的实例掩码。然后,我们对原始图像和详尽的实例分割应用强增强,ϕ(·) 和 φ(·),获得两个不同视图作为模型的输入。我们通过联合蒸馏SAM的检测知识和实例相似性学习来训练我们的MASA适配器。颜色更好,放大查看。
3.2.2 MASA适配器
我们引入了MASA适配器,旨在扩展开放世界的分割和检测模型(如SAM[35]、Detic[78]和Grounding-DINO[40]),以跟踪任何检测到的物体。MASA适配器与这些基础模型的冻结骨干特征协同工作,确保其原有的检测和分割能力得以保留。然而,并非所有预训练特征天生就适合跟踪,我们首先将这些冻结的骨干特征转换为更适合跟踪的新特征。
鉴于物体的形状和大小多样性,我们构建了一个多尺度特征金字塔。对于像Detic和Grounding DINO中的Swin Transformer[42]这样的分层骨干网络,我们直接采用FPN[39]。对于SAM,它使用了一个普通的ViT[18]骨干网络,我们使用转置卷积和最大池化对单尺度特征进行上采样和下采样,以生成具有比例的多层次特征。为了有效学习不同实例的判别性特征,一个位置的物体需要感知其他位置实例的外观。因此,我们使用可变形卷积来生成动态偏移,并在空间位置和特征级别上聚合信息,如[16]:
此外,我们在训练期间引入了一个物体先验蒸馏分支作为辅助任务。该分支采用标准的RCNN[51]检测头,学习紧密包围SAM每个实例掩码预测的边界框。它有效地从SAM中学习详尽的物体位置和形状知识,并将这些信息蒸馏到转换后的特征表示中。这种设计不仅增强了MASA适配器的特征,从而提高了关联性能,还通过直接提供预测框提示加速了SAM的“一切模式”。
MASA适配器使用检测和对比损失的组合进行优化,定义在第3.2.1节中:。检测损失与[51]中的相同。
3.2.3 推理
图3展示了我们统一模型的测试管道。
检测和跟踪任何物体 当我们将MASA适配器与物体检测器集成时,我们移除了训练期间学习的MASA检测头。MASA适配器随后仅作为跟踪器。检测器预测边界框,然后用于提示MASA适配器,检索相应的跟踪特征以进行实例匹配。我们使用简单的双softmax最近邻搜索进行准确的实例匹配,如附录J.4节所示。
4 实验
我们在多个具有挑战性的MOT/MOTS基准测试上进行了实验,涵盖了不同的领域。
4.1 实验设置
TAO MOT
TAO数据集[17]旨在跟踪多种多样的物体,涵盖了超过800个类别,是目前最丰富且类别数量最多的MOT数据集。它包含500个训练视频、988个验证视频和1419个测试视频,分别以1 FPS的速度进行标注。我们在验证集上报告性能。TAO包含多个基准测试,每个基准测试突出不同的特征和要求。TAO TETA基准测试[36]强调关联,奖励生成干净轨迹且无重叠的跟踪器。相反,TAO Track mAP基准测试[17]特别重视轨迹的分类,并且不严重惩罚重叠轨迹。开放词汇MOT基准测试[37]要求跟踪器避免使用来自新类别的标注进行训练,专注于跟踪新类别的泛化能力。
BDD100K MOT[71]
要求跟踪器在自动驾驶场景中跟踪常见物体。该数据集以5 FPS的速度进行标注,验证集中有200个视频。
BDD100K MOTS
与BDD100K MOT不同,BDD100K MOTS[71]要求跟踪器同时跟踪和分割物体,评估基于掩码的跟踪性能。训练集有154个视频,验证集有32个视频,测试集有37个视频。
UVO[55]
是一个具有挑战性的开放世界视频实例分割基准测试。与之前的视频级物体分割数据集[68]相比,它标注了更多样化的实例。UVO有两个评估轨道,一个是图像轨道,另一个是视频轨道。我们在UVOv0.5验证集上评估所有方法。
评估指标
如前人工作[36]所分析,传统的跟踪指标如mMOTA[71]和track mAP[17]可能会产生误导,特别是在长尾场景中,因为它们对分类非常敏感。为了解决这个问题,[36]引入了TETA,这是一种新的跟踪指标,分解为三个独立组件:AssocA、LocA和ClsA,分别反映关联、定位和分类的准确性。在标准MOT基准测试中,为了确保跟踪器关联能力的公平比较,我们采用与领先的最先进跟踪器相同的检测观测值。因此,我们的重点主要放在关联相关的指标上,如AssocA、mIDF1和IDF1。此外,在评估我们的统一模型时,我们考虑了全面的指标,以捕捉其综合能力。特别是在UVO上的开放世界分割,我们重点放在图像和视频级别的AR100和Track AR100指标上。这是因为SAM通常会分割物体的每个部分,而UVO缺乏如此详细的标注,使得传统的AP评估不太准确。
训练数据
SA-1B[35]包含1100万张多样化的、高分辨率的图像,包含复杂环境中多个物体交互的多样化场景。我们从SA-1B原始图像中抽取了50万张图像,构建了一个训练集SA-1B-500K。
实现细节
对于我们的模型,我们使用了SAM[35]、Detic和Grounding-DINO的官方权重,确保这些模型的所有组件在训练阶段保持冻结。具体来说,我们使用了SAM的ViT-Base和ViT-Huge骨干网络,以及Detic和Grounding-DINO的SwinB骨干网络。我们以每批次128张图像的批量大小,使用SGD优化器进行训练,初始学习率为0.04,并采用阶梯策略进行学习率衰减。动量和权重衰减参数分别设置为0.9和1e-4。我们的训练持续12个epoch,学习率在第8和第11个epoch时减少。对于数据增强,我们使用了随机仿射变换、MixUp[73]和大规模抖动[21],以及标准的翻转、颜色抖动和随机裁剪。更多细节请参见附录J。
4.2 最先进方法的比较
我们通过两种方式评估我们的方法。首先,为了准确评估我们方法的关联能力,我们在标准MOT基准测试中始终提供与当前最先进方法相同的检测观测值。其次,为了评估我们统一模型的集成能力,我们遵循以下协议:对于基于SAM的模型,我们在开放世界视频分割数据集UVO上进行评估。对于基于检测器的模型,我们在开放词汇MOT基准测试[37]上进行评估。我们还报告了TAO TETA和TAO Track mAP基准测试的分数。请注意,我们对所有变体进行零样本关联测试,并在所有基准测试中使用相同的权重。
TAO TETA
我们使用与TETer-SwinT[36]相同的观测值。如表1所示,我们的方法在零样本设置下,使用Grounding-DINO的骨干网络表现最佳,无需在任何特定领域标注的视频上进行训练,在AssocA和TETA上均表现出色。我们还测试了我们的统一Detic模型,该模型同时输出检测和跟踪结果。它显著优于所有其他方法,并达到了新的最先进水平。这表明我们的方法能够很好地与当前的检测基础模型结合,并将它们强大的检测能力转化为跟踪能力。
开放词汇MOT
类似于开放词汇物体检测任务[22],开放词汇MOT[37]规定方法应仅使用LVIS[23]中的频繁和常见类别标注进行训练,将稀有类别视为新类别。我们评估了我们的统一“检测并跟踪任何物体”模型Detic,该模型仅使用基础类别标注进行训练。表2显示,我们的统一Detic模型在所有指标上均优于现有模型,并且在基础和稀有类别分割上均取得了显著领先,尽管我们的跟踪器仅使用域外未标注图像进行训练。
TAO Track mAP
我们使用与GTR[79]相同的观测值。如表3所示,我们的方法在SAM-B上表现最佳(Track mAP50为23.9),在相同的检测结果下表现最佳。我们的大多数模型都优于当前最先进的GTR,后者是一种利用未来信息进行关联的离线方法。相比之下,我们的方法是在线跟踪,并在零样本设置下进行测试。我们的统一Detic模型再次取得了新的最先进水平,显著优于GTR。
BDD100K MOTS
我们使用与最先进方法UNINEXT-H[66]相同的观测值,并在BDD100K MOTS基准测试上进行零样本关联测试。如表4所示,我们的方法在所有方法中取得了最佳的关联性能(mIDF1为49.7,AssocA为54.5)。这表明我们方法学习的实例嵌入具有优越性。
BDD100K MOT
如表5所示,在提供与ByteTrack[75]相同的观测值的情况下,我们的方法取得了最佳的IDF1(71.7)和AssocA(52.9)。与最先进的ByteTrack[75]相比,我们的方法在关联性能上也表现更好,IDF1和AssocA分别高出约1.4%,且无需使用任何BDD图像进行训练。ByteTrack还选择了低置信度的框并将其添加到轨迹中,从而获得了更好的mMOTA分数,该分数优先考虑检测性能[43]。
UVO VIS
我们对基于SAM的统一“分割并跟踪任何物体”模型进行零样本测试。我们直接使用MASA检测头生成的框提示进行快速分割一切。如图3(a)所示,我们的方法在图像和视频轨道上均取得了最佳性能,显著优于其对应方法。此外,我们还与SAM的默认自动掩码分割进行了比较。如图3(b)所示,随着推理时间的增加,我们的方法的AR100增长速度远快于SAM,这是由于蒸馏检测分支的作用。我们的方法在ViT-Base骨干网络上的AR100上限甚至超过了SAM 10%。此外,在达到相同的AR100时,我们的方法比SAM快约10倍。这是因为我们的方法学习了强大的物体先验,能够通过少量稀疏提议捕捉潜在物体。然而,为了分割一切,SAM必须均匀采样约1000个点,这种方法不够灵活且效率低下,同时还依赖于手工设计的复杂后处理方法。
与VOS方法的比较
我们评估了基于VOS的方法Deva[14],该方法集成了XMem[13]以跟踪多个物体,以及SAM-PT[49],该方法使用点跟踪。为了确保公平比较,我们在BDD MOTS、TAO TETA和UVO基准测试上提供相同的观测值。对于UVO,我们首先使用SAM的自动掩码生成来生成掩码,然后按照Deva[14]中的启发式方法解决重叠掩码,并使用Deva生成每帧观测值。
表6显示,我们的方法在所有基准测试上均优于Deva。值得注意的是,在自动驾驶BDD100K基准测试中,物体频繁进出场景,基于VOS的方法(如Deva)容易产生大量误报。这在TETA分数中得到了体现,误报会受到严重惩罚。此外,Deva在处理重叠预测时也存在困难,这是当前检测模型的常见问题。我们在附录II中提供了更深入的分析。
与自监督方法的比较
我们进一步将我们的方法与旨在从未标注图像或视频中学习通用外观特征的自监督方法进行比较。为了确保公平比较,我们使用BDD和COCO的原始图像训练所有方法。具体来说,对于VFS,我们使用BDD的原始视频。我们使用ResNet-50模型进行VFS[64]和MoCov2[11],并使用ViT-B模型进行DINO[8],遵循UniTrack[58]中描述的关联跟踪策略。此外,我们确保所有模型的检测观测值相同。表7表明,我们的方法显著优于其他自监督方法。这种优势源于传统的自监督学习主要关注帧级别的相似性,限制了它们在包含多个物体的图像中利用实例信息的能力。附录G中提供了进一步的分析。
4.3 消融研究与分析
为了减少训练成本,我们在消融实验中仅使用4万张原始图像进行训练。除非另有说明,我们使用来自[71]的7万张原始图像和来自[38]训练集的11万张图像进行训练。我们使用Ours-SAM-B模型,并在BDD MOT和TAO TETA基准测试上进行测试。
训练策略和模型架构的影响
表8显示,直接使用现成的SAM特征(第1行)进行关联效果较差。主要原因是SAM的原始特征是为分割优化的,而不是为实例级别的判别性优化的。然而,结合我们的MASA训练方法并添加轻量级跟踪头显著提高了性能,在BDD MOT上的AssocA和mIDF1分别提高了15.6%和14.4%。这证明了我们训练策略的有效性。加入动态特征融合块进一步提高了1.6%的性能。此外,联合训练物体先验蒸馏分支使AssocA和mIDF1分别提高了1.8%和1.6%,展示了这些架构设计的效果。
提议多样性的影响
我们评估了关联学习中不同的提议生成机制。我们仅使用BDD检测任务训练集中的原始图像进行训练。通过将MASA管道中的SAM替换为在COCO上预训练的Mask2former-SwinL[12]。如表(a)a所示,我们发现使用SAM的提议显著提高了BDD上的域内性能和TAO上的零样本跟踪性能。这突显了SAM的密集多样物体提议在对比相似性学习中的重要性。
提议数量的影响
我们研究了SAM提议数量对学习的影响,实验了每批次64、128和256个提议的不同上限。表(b)b显示,随着提议数量的增加,BDD和TAO上的AssocA均有所提高,表明丰富的实例集合促进了更具判别性的跟踪特征。
数据增强的影响
如表(c)c所示,随机仿射变换、MixUp[73]和LSJ[21]的组合提供了最佳性能。方法1代表基本的数据增强,包括翻转、调整大小、颜色抖动和随机裁剪。如果没有强增强(方法1),BDD MOT上的mIDF1下降了6.7%,比方法5差得多。这些结果说明了在仅使用静态图像进行训练时,强增强的必要性。
定性结果
在图14中,我们展示了我们统一方法的定性结果,包括Grounding-DINO和SAM-H。我们的方法能够准确检测、分割和跟踪多个物体及其部分,跨越不同领域。这包括动画电影场景中许多外观相似的角色以及复杂环境中的驾驶场景。
5 结论
我们提出了MASA,一种利用SAM的详尽实例级别形状和外观信息,从未标注图像中学习可泛化实例关联的新方法。MASA在各种基准测试中展示了出色的零样本关联性能,消除了对昂贵特定领域标签的需求。此外,我们的通用MASA适配器可以添加到任何现有的检测和分割模型中,使它们能够跨不同领域高效跟踪任何物体。