今天看到一篇有意思的文章,全华人团队提出SAMURAI,用经典卡尔曼滤波器改进SAM2,实现实时目标跟踪,无需重新训练,在多个视觉跟踪基准上表现优异,超越SAM2,与部分有监督方法相当。这里主要是趁着中午的时间整体阅读了一下,记录自己的阅读记录,感兴趣的话可以参考一下,如果想要直接阅读原文,可以来这里,如下所示:
摘要
分割任意模型2(SAM 2)在对象分割任务中表现出色,但在视觉对象跟踪中面临挑战,特别是在处理拥挤场景、快速移动或自遮挡对象时。此外,原始模型中的固定窗口内存方法没有考虑用于条件化下一帧图像特征的记忆质量,导致视频中的错误传播。本文介绍了SAMURAI,一种专门为视觉对象跟踪设计的SAM 2增强适应模型。通过结合时间运动线索和提出的运动感知记忆选择机制,SAMURAI有效地预测对象运动并优化掩码选择,实现了无需重新训练或微调的鲁棒、准确跟踪。SAMURAI实时运行,并在多个基准数据集上展示了强大的零样本性能,展示了其无需微调的泛化能力。在评估中,SAMURAI在成功率和精度上显著优于现有跟踪器,在LaSOText上获得了7.1%的AUC增益,在GOT-10k上获得了3.5%的AO增益。此外,它在LaSOT上与完全监督的方法相比取得了有竞争力的结果,突显了其在复杂跟踪场景中的鲁棒性及其在动态环境中的实际应用潜力。代码和结果可在这里找到,如下所示:
1 引言
分割任意模型(SAM)[26]在分割任务中展示了令人印象深刻的性能。最近,SAM 2 [35]引入了流式内存架构,使其能够顺序处理视频帧并在长序列中保持上下文。尽管SAM 2在视频对象分割(VOS)任务中展示了显著的能力,能够在整个视频序列中生成对象的精确像素级掩码,但在视觉对象跟踪(VOT)场景中仍面临挑战。
VOT的主要关注点是在遮挡、外观变化和相似对象存在的情况下保持对象身份和位置的一致性。然而,SAM 2在预测后续帧的掩码时经常忽略运动线索,导致在快速对象移动或复杂交互场景中的不准确性。这种局限性在拥挤场景中尤为明显,SAM 2倾向于优先考虑外观相似性而非空间和时间一致性,导致跟踪错误。如图1所示,有两种常见的失败模式:拥挤场景中的混淆和遮挡期间无效的记忆利用。
为了解决这些局限性,我们建议将运动信息纳入SAM 2的预测过程。通过利用对象轨迹的历史,我们可以增强模型在视觉相似对象之间进行区分的能力,并在存在遮挡的情况下保持跟踪准确性。此外,优化SAM 2的内存管理至关重要。当前的方法[14, 35]不加区分地将最近的帧存储在内存库中,在遮挡期间引入不相关的特征,损害跟踪性能。解决这些挑战对于将SAM 2的丰富掩码信息适应于鲁棒的视频对象跟踪至关重要。
为此,我们提出了SAMURAI,一种基于SAM的统一鲁棒零样本视觉跟踪器,具有运动感知实例级内存。我们提出的方法包括两个关键进展:(1)一个运动建模系统,用于优化掩码选择,在复杂场景中实现更准确的对象位置预测;(2)一个优化的内存选择机制,利用混合评分系统,结合原始掩码亲和性、对象和运动评分,保留更多相关历史信息,从而增强模型的整体跟踪可靠性。
总之,本文做出了以下贡献:
-
我们通过引入运动建模,增强了视觉跟踪的准确性,有效处理快速移动和遮挡对象。
-
我们提出了一种运动感知内存选择机制,通过混合运动和亲和性评分选择性地存储相关帧,与原始固定窗口内存相比,减少了拥挤场景中的错误。
-
我们的零样本SAMURAI在LaSOT、LaSOText、GOT-10k和其他VOT基准数据集上实现了最先进的性能,无需额外训练或微调,展示了我们提出的模块在不同数据集上的强大泛化能力。
图1:使用SAM 2进行视觉对象跟踪的两种常见失败案例说明:(1) 在目标对象与背景对象外观相似的拥挤场景中,SAM 2倾向于忽略运动线索,预测掩码具有更高IoU评分的位置。(2) 原始内存库简单地选择并存储前n帧到内存库中,导致在遮挡期间引入一些不良特征。
2 相关工作
视觉对象跟踪(VOT)
视觉对象跟踪(VOT)[36]旨在跟踪包含对象尺度变化、遮挡和复杂背景的挑战性视频序列,以提高跟踪算法的鲁棒性和准确性。基于孪生网络[52, 10]和基于Transformer[12, 47]的跟踪器是常见的通过学习嵌入相似性的方法。然而,由于这些跟踪器在单次前向传递评估方案中缺乏自我修正,它们很容易偏离干扰物。为此,最近的工作[49, 18]进一步引入了内存库和注意力机制,以在当前帧和历史信息之间找到更好的映射。
分割任意模型(SAM)
分割任意模型(SAM)[26]自引入以来引发了大量后续研究。SAM引入了一种基于提示的分割方法,用户可以输入点、边界框或文本以指导模型分割图像中的任何对象。SAM在视频理解[39, 38, 7]和编辑[6]等领域有广泛应用。随后,各种工作基于SAM展开。例如,SAM 2 [35]扩展了模型的能力,使其能够进行视频分割[11],在动态视频序列中跨多帧跟踪对象时引入内存机制。此外,还努力创建资源受限环境中更高效的SAM变体,旨在减少其计算需求[45, 54]。医学成像领域的研究也采用了SAM进行专门任务[30]。最近,SAM2Long [14]使用基于树的内存来增强长视频的对象分割。然而,它们的高FPS视频序列和更深的内存树架构需要指数级更多的计算能力和内存存储,因为存储精确路径和时间约束内存路径的开销。另一方面,我们提出的SAMURAI模型基于SAM 2,已经在大规模分割数据集上进行了训练,以克服这些挑战并确保良好的性能和泛化能力。
运动建模
运动建模是跟踪任务中的重要组成部分,可以分为启发式和可学习方法。启发式方法,如广泛使用的卡尔曼滤波器(KF)[24],依赖于固定的运动先验和预定义的超参数来预测对象轨迹。虽然KF在许多跟踪基准中已被证明有效,但在具有强烈或突然运动的场景中往往失败。其他方法[1]试图通过在应用传统KF基预测之前补偿相机运动来抵消强烈或突然的对象运动。然而,标准和噪声尺度自适应(NSA)卡尔曼滤波器[15]都带有大量超参数,可能限制其在特定类型运动场景中的有效性。相比之下,由于其数据驱动的性质,可学习的运动模型越来越受到关注。Tracktor [2]是第一个使用轨迹框作为Faster-RCNN中的感兴趣区域(RoI)来提取特征并在帧间回归对象位置的方法。MotionTrack [43]通过学习过去的轨迹表示来预测未来的运动,从而增强跟踪。MambaTrack [22]进一步探索了基于Transformer [40]和状态空间模型(SSM)[21]等不同学习型运动模型架构。我们的方法也是一种基于学习的运动建模,具有增强的启发式方案。
3 重温分割任意模型2
分割任意模型2 [34]包含(1)图像编码器,(2)带有提示编码器的掩码解码器,(3)内存注意力层,和(4)内存编码器。我们将介绍SAM 2的一些初步知识,并特别指出SAMURAI添加的部分。
然而,亲和性评分在视觉跟踪中并不是一个非常鲁棒的指标,特别是在拥挤场景中,相似对象相互遮挡的情况下。我们引入了一个额外的运动建模,以跟踪目标的运动并提供额外的运动评分,以辅助预测的选择。
内存注意力层。内存注意力块首先对帧嵌入执行自注意力,然后执行图像嵌入和内存库内容之间的交叉注意力。因此,无条件的图像嵌入通过先前的输出掩码、先前的输入提示和对象指针进行上下文化。
内存编码器和内存库。掩码解码器生成输出掩码后,输出掩码通过内存编码器获得内存嵌入。每处理一帧后创建一个新的内存。这些内存嵌入被附加到一个内存库中,这是一个最新内存生成的先进先出(FIFO)队列。在序列中的任何给定时间 t,我们可以形成内存库 Bt 为:
这种简单的固定窗口内存实现可能会编码错误或低置信度的对象,在长序列视觉跟踪任务的上下文中会导致错误显著传播。我们提出的运动感知内存选择将替换原始的内存库组成,以确保更好的内存特征可以被保留并条件化到图像特征上。
4 方法
SAM 2在基本的视觉对象跟踪(VOT)和视频对象分割(VOS)任务中展示了强大的性能。然而,原始模型可能会错误地编码不正确或低置信度的对象,导致长序列VOT中的错误显著传播。
为了解决上述问题,我们提出了一种基于卡尔曼滤波器(KF)的运动建模,用于多掩码选择(在4.1节),并基于亲和性和运动评分的混合评分系统进行增强的内存选择(在4.2节)。这些增强旨在加强模型在复杂视频场景中准确跟踪对象的能力。重要的是,这种方法不需要微调,也不需要额外的训练,可以直接集成到现有的SAM 2模型中。通过在不增加计算开销的情况下改进预测掩码的选择,该方法为在线VOT提供了一个可靠、实时的解决方案。
图2:我们的SAMURAI视觉对象跟踪器的概述。
运动建模
运动建模长期以来一直是视觉对象跟踪(VOT)和多对象跟踪(MOT)[1, 5, 51]中解决关联模糊性的有效方法。我们采用基于线性的卡尔曼滤波器[24]作为基线,以展示运动建模在提高跟踪准确性中的整合。
在我们的视觉对象跟踪框架中,我们集成了卡尔曼滤波器以增强边界框位置和尺寸的预测,这反过来有助于从 M 中的 N 个候选中选择最置信的掩码。我们将状态向量 x 定义为:
运动感知内存选择
所提出的运动建模和内存选择模块可以显著增强视觉对象跟踪,而无需重新训练,并且不会增加现有管道的任何计算开销。它也是模型无关的,可能适用于SAM 2之外的其他跟踪框架。通过将运动建模与智能内存选择相结合,我们可以在不牺牲效率的情况下增强挑战性实际应用中的跟踪性能。
表1:在LaSOT [16]、LaSOText [17] 和 GOT-10k [23] 上的视觉对象跟踪结果。† LaSOText 在 LaSOT 上训练的跟踪器上进行评估。‡ GOT-10k 协议仅允许使用其对应的训练拆分训练跟踪器。T、S、B、L 表示基于 ViT 的主干大小,下标表示搜索区域。粗体表示最佳,下划线表示第二。
5 实验
基准数据集
我们在以下VOT基准数据集上评估了SAMURAI的零样本性能:
图3:LaSOT 和 LaSOText 的成功率(SUC)和归一化精度(Pnorm)图。
LaSOT [16] 是一个视觉对象跟踪数据集,包含1,400个视频,涵盖70个多样化的对象类别,平均序列长度为2,500帧。它分为训练集和测试集,分别包含1,120和280个序列,每个类别有16个训练序列和4个测试序列。
LaSOText [17] 是原始LaSOT数据集的扩展,引入了额外的150个视频序列,涵盖15个新的对象类别。这些新序列专门设计用于关注小对象的遮挡和变化,更具挑战性,标准协议是直接在LaSOText上评估在LaSOT上训练的模型。
GOT-10k [23] 包含超过10,000个真实世界移动对象的视频片段,涵盖超过560个对象类别和80多种运动模式。GOT-10k的一个关键方面是其一次性评估协议,要求跟踪器仅在其指定的训练拆分上进行训练,保留170个视频用于测试。
TrackingNet [33] 是一个大规模跟踪数据集,涵盖了广泛的对象类别和多样化的野外上下文。它总共有30,643个视频,分为30,132个训练视频和511个测试视频。
NFS [25] 由100个视频组成,总共有380k帧,使用高帧率(240 FPS)相机从真实世界场景中捕捉。我们使用30 FPS版本的数据,并按照其他VOT工作添加人工运动模糊。
OTB100 [42] 是最早的视觉跟踪基准之一,标注了具有属性标签的序列。它包含100个序列,平均长度为590帧。
定量结果
5.2.1 LaSOT和LaSOText的结果
表1展示了LaSOT和LaSOText数据集上的视觉对象跟踪结果。我们的方法SAMURAI在所有三个指标(如图3所示)上显著优于零样本和监督方法。尽管监督VOT方法如[29, 55]显示出相当令人印象深刻的结果,但零样本SAMURAI相比之下展示了其强大的泛化能力,具有可比拟的零样本性能。此外,所有SAMURAI模型在LaSOText上的所有指标上均优于最先进的方法。
表2:在 TrackingNet [33]、NFS [25] 和 OTB100 [42] 数据集上,我们提出的方法与最先进方法的 AUC(%)视觉对象跟踪结果。粗体表示最佳,下划线表示第二。
表3:消融研究提出的模块的有效性。
表4:消融研究运动权重 αkf 的敏感性。
5.2.2 GOT-10k的结果
表1还展示了GOT-10k数据集上的视觉对象跟踪结果。请注意,GOT-10k协议仅允许跟踪器在其对应的训练拆分上进行训练,一些论文可能将其称为一次性方法。SAMURAI-B在AO上显示出2.1%的改进,在OP0.5上显示出2.9%的改进,而SAMURAI-L在AO上显示出0.6%的改进,在OP0.5上显示出0.7%的改进。所有SAMURAI模型在GOT-10k上的所有指标上均优于最先进的方法。
表5:提出的 SAMURAI 与基线 SAM 跟踪方法的视觉对象跟踪结果比较。
5.2.3 TrackingNet、NFS和OTB100的结果
表2展示了四个广泛比较的基准数据集上的视觉对象跟踪结果。我们的零样本SAMURAI-L模型在AUC上可与或超越最先进的监督方法,展示了我们模型在各种数据集上的能力和泛化能力。
消融研究
图4:SAMURAI 与现有方法的跟踪结果可视化比较。(顶部)传统 VOT 方法在目标对象被外观相似对象包围的拥挤场景中往往表现不佳。(底部)基于 SAM 的基线方法由于固定窗口内存组成而遭受错误传播和整体跟踪准确性降低,导致 ID 切换。
5.3.1 单个模块的效果
我们在表3中展示了有无内存选择在各种设置下的效果。两个提出的模块都对SAM 2模型产生了积极影响,而结合两者可以在LaSOT数据集上实现最佳AUC,AUC为74.23%,Pnorm为82.60%。
5.3.2 运动权重的效果
我们在表4中展示了决定信任哪个掩码的评分权重的效果。运动评分和掩码亲和性评分之间的权衡对跟踪性能有显著影响。我们的实验表明,在LaSOT数据集上设置运动权重 αmotion=0.2αmotion=0.2 可以获得最佳的AUC和Pnorm评分,表明这种平衡可以增强掩码选择的准确性和鲁棒性。
5.3.3 基线比较
为了展示SAMURAI中提出的运动建模和运动感知内存选择机制的有效性,我们对SAM 2 [34]在所有主干变体上进行了详细的苹果对苹果比较,包括LaSOT和LaSOText。基线SAM 2采用原始内存选择,并直接使用最高IoU评分预测掩码。表5显示,所提出的方法在所有三个指标上一致地优于基线,这突显了我们方法在不同模型配置中的鲁棒性和泛化能力。
5.3.4 属性分析
我们基于[16, 17]中定义的14个属性分析了LaSOT和LaSOText。在表6中,SAMURAI在两个数据集的所有属性上一致地改进了原始基线,但在LaSOText的IV(光照变化)标签上除外。通过考虑运动评分,SAMURAI在CM(相机运动)和FM(快速运动)等属性上的性能提升最大,从LaSOText数据集上分别获得了16.5%和9.9%的增益,该数据集被认为是VOT中最具挑战性的数据集之一。此外,与遮挡相关的属性如FOC(完全遮挡)和POC(部分遮挡)也从提出的运动感知实例级内存选择中受益匪浅,在所有模型变体和数据集上显示出稳定的改进。这些发现表明,SAMURAI通过简单的运动估计更好地考虑了全局相机或快速对象运动,从而实现了更好的跟踪。
表6:LaSOT [16] 和 LaSOText [17] 的属性级 AUC(%) 结果。
5.3.5 运行时分析
将运动建模和增强的内存选择方法整合到我们的跟踪框架中引入了最小的计算开销,并且在NVIDIA RTX 4090 GPU上进行的运行时测量与基线模型保持一致。
定性结果
SAMURAI与其他方法[3, 29, 34]的定性比较如图4所示。SAMURAI在视频中存在多个外观相似对象的场景中展示了优越的视觉对象跟踪结果。这些示例中的短期遮挡使得现有VOT方法难以在时间上一致地预测或定位同一对象。此外,SAMURAI与原始基线之间的可视化掩码比较展示了通过添加运动建模和内存选择模块获得的改进,预测掩码并不总是可靠的内存源,因此有一个系统的方法来决定信任哪个掩码是宝贵的。这些增强通过无需重新训练模型或微调即可提供更好的视觉跟踪指导,从而使现有框架受益。
6 结论
我们提出了SAMURAI,一种基于分割任意模型的视觉对象跟踪框架,通过引入基于运动评分的更好掩码预测和内存选择,以处理拥挤场景中的自遮挡和突然运动。所提出的模块在所有SAM模型变体和多个VOT基准数据集的所有指标上展示了持续的改进。该方法无需重新训练或微调,同时在多个VOT基准数据集上展示了鲁棒性能,并具备实时在线推理的能力。
图4:SAMURAI与现有方法的跟踪结果可视化比较。(顶部)传统VOT方法在目标对象被外观相似对象包围的拥挤场景中往往表现不佳。(底部)基于SAM的基线方法由于固定窗口内存组成而遭受错误传播和整体跟踪准确性降低,导致ID切换。