最新SOTA！Beyond SOT：是时候一次跟踪多个通用目标了

最新推荐文章于 2025-05-04 15:39:20 发布

自动驾驶之心

最新推荐文章于 2025-05-04 15:39:20 发布

阅读量1.2k

点赞数 1

本文链接：https://blog.csdn.net/CV_Autobot/article/details/128502457

版权

点击下方卡片，关注“自动驾驶之心”公众号

ADAS巨卷干货，即可获取

点击进入→自动驾驶之心【目标跟踪】技术交流群

后台回复【BeyondSOT】获取本文论文！

摘要

通用目标跟踪（GOT）是跟踪目标对象的问题，由视频第一帧中的目标框指定。尽管这项任务在过去几十年中受到了广泛关注，但研究人员几乎只关注单目标跟踪。多目标GOT具有更广泛的适用性，因此在实际应用中更具吸引力。论文将这个问题归因于缺乏合适的基准。本文引入了一个新的大规模GOT基准，LaGOT，每个序列包含多个带标注的目标。该基准允许研究人员解决GOT中的关键剩余挑战，旨在通过同时联合跟踪多个目标来提高鲁棒性并减少计算量。此外论文提出了一种基于Transformer的GOT跟踪器TaMOs，能够通过共享计算联合处理多个目标。与独立跟踪每个目标相比，TaMOs在10个并发目标的情况下相比单目标跟踪快四倍并且性能更高。最后，TaMOs在单目标GOT数据集上取得了极具竞争力的结果，在TrackingNet上创下了新SOTA，AUC84.4%。

本文的主要贡献如下：

论文提出了一种新的多目标GOT评估基准LaGOT，由密集标注的多个通用目标轨迹组成，每个序列平均2.8个轨迹，在单目标模式下总评估长度为879分钟。论文在LaGOT基准上评估了8个现有的GOT跟踪器；
论文提出TaMOs是一种GOT跟踪器，可以同时有效地跟踪多个通用目标。为了实现这一点，本文提出了一种新的多目标编码，引入了FPN，并在整个视频帧上全局应用跟踪器；
论文通过评估其不同组件的影响来分析所提出的跟踪器，并评估其对所提出的多目标GOT基准以及流行的单目标GOT标准的影响。TaMOs的性能优于最近的跟踪器，如LaGOT上的MixFormer[7]和ToMP[62]，同时在LaSOT[18]上取得了优异的结果，并在TrackingNet上创下了新SOTA[41]。最后，TaMOs在增加目标数量时显示出几乎恒定的运行时间，与跟踪10个目标时的基线相比，其运行时间快了4倍以上。

相关工作

目标跟踪Benchmark：通用目标跟踪是一个深入研究的主题，存在许多数据集。有专门的数据集和挑战集中于短期[19、25、26、28、41、54]或长期跟踪[17、18、26、40、50]。然而，所有这些基准和数据集共享相同的设置，即仅提供单个用户指定的目标框，从而在每个视频序列中仅跟踪一个目标。最近，GMOT-40[1]专注于通用多目标跟踪（GMOT），其中在第一个视频帧中提供单个目标框，并且应跟踪与标注目标对应的同一类的所有目标。与GMOT不同，论文关注的是给定多个目标的设置，可能来自不同的类别。

MOT专注于跟踪与不同但预定义的类相对应的多个目标，因此需要对这些类进行预训练的检测器。MOT研究的主要目的是跟踪行人[15,48]或自动驾驶环境，其中只考虑少数不同的类别[5,21,64]。为了克服这一限制，TAO[14]专注于跟踪长尾类分布的目标，但由于昂贵的标注过程，提供了稀疏的标注。另一项相关任务是开放世界跟踪[33]，旨在检测和跟踪视频序列中的任何目标。然而，与长尾MOT数据集类似，在这种设置中可能无法检测或跟踪感兴趣的目标。特别是如果所需的目标对应于罕见的类、目标的一部分或patch，则在不提供用户指定的目标框的情况下跟踪它们是困难的。在视频目标分割（VOS）领域，DAVIS[44]和YouTubeVOS[56]提供了多目标标注。然而，他们的视频非常短（平均分别为2.9和4.5秒），因此不适合跟踪。此外，VOS域为跟踪器提供了较少的挑战，而是专注于大型目标和短期性质，其中主要的挑战是准确分割掩模的预测。

全局通用多目标跟踪：全局跟踪在整个视频帧上运行，而不是在前一帧中目标位置附近的受限搜索区域中运行。这不仅在跟踪同一场景中的多个目标时有用，而且有助于重新检测丢失的目标。GlobalTrack[24]和Siam R-CNN[52]通过使用检索目标特定proposal的全局RPN来跟踪目标。另一组方法，如MetaUpdater[8]和SPLT[60]，对局部搜索区域进行操作，但如果目标从搜索区域消失，则使用re-detector器重定位目标。相比之下，论文提出的跟踪器始终在整个帧上运行，并使用基于Transformer的模型预测器来生成目标特定的相关滤波器，而不是生成目标特定proposal。

UTT[37]通过跟踪每个序列中的一个通用目标和属于一组预定义类（如行人）的多个目标来处理GOT和MOT。UTT使用Transformer将测试帧特征与初始（SOT）或先前（MOT）帧中检测到的对象的参考特征相匹配。Unicorn[58]通过改变输入数据类型，使用相同的模型执行SOT和MOT。相反，论文的跟踪器同时跟踪多个通用目标，而不是只跟踪一个目标或预定义类的多个目标。

通用目标跟踪Transformer：近年来，随着Transformer的出现，跟踪技术取得了巨大进步[51]。大多数这样的跟踪器共享通过使用Transformer来融合搜索区域和模板图像特征的想法[6，7，38，59，62，63]。MixFormer[7]和OSTrack[62]使用Transformer联合提取和融合模板和搜索区域特征。TransT[6]、STARK[59]和ToMP[38]使用主干来提取视觉特征，并使用交叉注意力来融合特征表示。然而，这些跟踪器中没有一个可以容易地扩展到联合跟踪多个目标，这在本工作中得到了解决。通用多目标跟踪编码：在GOT中，跟踪多个目标在很大程度上被忽略了。因此，GOT跟踪器只专注于对每个训练帧的单个目标进行编码。最流行的方法是裁剪以目标位置为中心的小模板[2，6，7，59，62]。虽然仍然限于单个目标，但ToMP[38]使用更大的训练区域，并使用高斯分数图和边界框编码来标记目标在训练帧中的位置。在同一训练帧中编码多个目标的方法是VOS方法AOT[61]。AOT通过使用学习目标嵌入和分割掩码将每个目标编码到识别嵌入中，而论文提出了仅由边界框指定的目标的有效编码。

基准

现有的数据集似乎更适合多目标GOT评估，它们是TAO[14]和ImageNetVID[47]，因为它们都提供了每个序列标注的多个轨迹和不同的目标类别。然而，虽然TAO包含数百个类的目标，但它在评估集上的目标仅为1fps，并且有许多短轨迹（平均21秒，或21帧）。ImageNetVID标注密集，但在验证集上只包含相当简单的视频、30个目标类和非常短的轨迹（平均8秒）。因此，论文选择为多目标GOT评估创建一个新的数据集。

The LaGOT benchmark：论文没有收集新的视频，而是在已经广泛使用的LaSOT[18]评估集上添加标注。它包含各种相对较长的视频（平均序列长度约为81秒），包括快速移动的物体、相机运动、各种物体大小、频繁的物体遮挡、比例变化、运动模糊和类似物体。另一个优点是在整个序列中通常存在多个目标，这对于长期跟踪场景来说是理想的。

为了创建新的基准，论文首先选择一组不同的相关目标类，即在相当长的时间内可见并且在视频中扮演积极角色但可能经常被遮挡的目标。接下来，论文以10fps的速度用基于目标框的轨迹标注每个视频中所选类的最突出目标。本文委托10名专业标注员对所有序列进行标注。他们使用一个交互式注释工具，该工具结合了一个目标跟踪器，以加快标注过程[29]。然而，所有标注都是手动验证的。

然后论文对标注进行后处理，以构建最终的轨迹。首先删除所有短于4秒的轨迹。其次，手动浏览每个视频以选择合适的起始帧。论文选择许多目标清晰可见的最早帧，从而保持较长的整体轨迹。第三，由于更频繁发生的遮挡和视野外事件，论文不能总是随着时间的推移清晰地关联目标身份。因此将这些视频分割成多个子序列，以确保高标注质量。示例帧见图2。

论文建立的基准测试有294个视频序列和837个轨迹。与原始LaSOT验证集相比，几乎将轨迹数量增加了三倍（以及相应的总评估时间，表1）。

此外，论文还添加了31个额外的通用目标类，例如游泳池队列、螺旋桨、轮胎或织物袋（参见补充材料）。LaGOT的平均估计长度为70秒（约700个标注帧），比TAO长3倍，几乎比ImageNetVID长10倍。

方法

背景：转换模型预测

由于其高性能和多功能架构，论文使用最近的ToMP[38]作为基线跟踪器。这使得它特别适合作为构建能够联合多目标跟踪的GOT方法的起点。训练图像裁剪包含大量背景信息，以增强目标背景辨别。因此，利用前景嵌入对目标位置进行编码。它与表示目标的中心位置的高斯分数图和LTRB[49，57]目标框编码相结合，编码如下所示：

编码的训练和测试特征之后被馈送到Transformer编码器和解码器，该编码器和解码器产生增强的测试特征和目标外观模型。Transformer编码器使用多头自注意力层[51]在训练和测试特征之间传播信息，定义如下：

增强的特征序列被输入到Transformer，当前景嵌入查询时，Transformer生成目标模型：

然后使用所生成的目标模型来获得判别相关滤波器，当将其应用于增强的测试特征时。其最大得分代表目标的位置。类似地，生成第二个卷积滤波器，其允许边界框回归头生成目标边界框。

概览：通用多目标跟踪

图3给出了所提出的通用多目标跟踪器TaMOs的概述。首先，与最初的ToMP不同，论文的追踪器在完整的训练和测试图像上运行，而不是在裁剪图像上运行。目标对象编码器使用一个可学习的目标嵌入池来编码单个共享特征图中每个目标对象的位置和范围。然后，随机采样的目标嵌入表示整个视频序列中的特定目标：论文使用目标嵌入来调节模型预测器，以生成定位目标对象的目标模型在测试帧中。由于对整个视频帧进行操作会增加Transformer操作的计算成本，因此仅限于特定的特征分辨率。为了跟踪小目标，论文提出了一种基于FPN的特征融合，将Transformer生成的测试帧特征与更高分辨率的主干特征相融合。采用ToMP的基于相关滤波器的目标定位和边界框回归机制，但两者都应用于更高分辨率的FPN特征，而不是Transformer的输出特征。

通用多目标编码

为了有效地跟踪不断增长的目标，论文提出了一种新的目标编码方法，该方法允许在共享特征图中编码多个目标，而不需要多个模板。此外处理整个视频帧，而不是针对每个目标在单独的搜索区域上进行操作。特别地，论文扩展了等式（1）中给出的单目标编码公式，以适用于多个目标。其思想是用多个嵌入来代替前面提到的单个目标嵌入，每个嵌入表示不同的目标。因此，论文创建了一个m≥n个目标嵌入的池E。然后为每个目标对象采样从池E嵌入的随机目标，而不进行替换。接下来将目标嵌入与表示目标中心位置的高斯分数图以及LTRB[49，57]边界框编码相结合。最终的编码如下：

注意，与等式（1）相比，论文不仅使用目标嵌入来编码高斯分数图，还使用边界框表示。在训练期间学习目标嵌入，使得模型能够解开共享特征表示，并能够识别训练和测试特征中的每个目标。注意，等式（4）中的第一个乘积在每个通道维度上使用与广播的乘法，而后者在空间维度上使用广播的信道乘法。

联合模型预测

既然目标对象的位置和范围已经嵌入到训练特征中，现在就需要一个模型预测器来为每个编码目标生成一个目标模型。然后使用目标模型来定位测试帧中的目标，并回归其边界框。为了随时间轻松地关联不同的目标，需要一个模型预测器，它可以以目标为条件，或者在本文的例子中，以不同的目标嵌入为条件。此外，该模型需要能够联合生成所有目标模型，以提高效率。

论文通过保持Transformer编码器不变但通过修改Transformer解码器来扩展ToMP的上述单目标模型预测器。特别地同时使用多个目标嵌入而不是单个前景嵌入来查询Transformer解码器：

目标定位和框回归

论文使用生成的目标模型来定位目标并回归其边界框。为目标分类生成了相关滤波器，并采用了ToMP的边界框回归分支[38]。但是没有在Transformer编码器的低分辨率测试特征上应用目标分类器和框回归器，而是使用FPN生成的高分辨率特征：

然后获得高分辨率多通道评分图：

注意，在推理过程中只使用高分辨率分数和边界框预测图。在训练期间将所有目标模型直接应用于Transformer编码器特性，类似于ToMP，但也应用于低分辨率和高分辨率特征图。论文根据经验观察到，当将损失应用于每个而不是仅应用于高分辨率输出时，训练性能更好。

训练

在训练期间，采用分类和边界框回归损失。如上所述，计算通过处理每个FPN特征图获得的预测的损失以及Transformer编码器的输出测试特征。分类损失为：

与分类相反，仅对实际对应于编码目标的预测强制进行边界框回归损失，而忽略对应于未使用目标嵌入的预测。回归损失由下式给出：

整体损失如下：

实验

LaSOT SOTA评估

论文使用Resnet-50和Swin-Base主干以及LaGOT基准上的其他8个跟踪器来评估论文的跟踪器。这些跟踪器是DiMP[3]、PrDiMP[13]、SuperDiMP[11]、KeepTrack[39]、TransT[6]、STARK[59]、ToMP[38]和MixFormer[7]。分别为每个目标运行SOT跟踪器。

结果：图4a显示了LaGOT上所有跟踪器的成功率。论文跟踪器实现了最好的AUC，甚至比最先进的MixFormerLarge-22k[7]领先1个点。本文进一步观察到，LaSOT与KeepTrack[39]（T<0.4）一样鲁棒，其中与剩余跟踪器的差距尤为突出。此外，论文的ResNet-50跟踪器在具有该主干的所有跟踪器中实现了最高的AUC，甚至超过了使用ResNet-101的STARK101[59]。这证明了全局多目标GOT方法的潜力。图4b显示了LaGOT上的跟踪精度召回曲线。论文的两个版本的追踪器都优于所有其他追踪器。LaSOT预测的高度鲁棒的目标存在分数在所有召回率>0.2时都会带来卓越的精度。此外，LaSOT实现了最佳的最大召回率，并且在VOTLT中以2.2分的成绩优于所有先前的方法。这表明，多个目标的联合跟踪和全局搜索有助于跟踪器的目标定位和识别能力。

运行时间分析：论文在单个A100 GPU上评估运行时间。表2报告了与ToMP相比，论文的跟踪器TaMOs的运行时分析，两者都采用了ResNet-50主干。虽然对于单个目标，TaMOs比ToMP慢，但由于全帧跟踪所需的分辨率更高，论文的方法对于两个并发目标已经达到了优势。由于ToMP需要为每个新目标运行单独的独立跟踪器，论文的方法实现了10个并发目标的4倍加速。此外，分析表明，即使增加目标数量，TaMOs也能实现几乎恒定的运行时间。主要为每个目标单独运行轻量级分类器和box回归器，这会略微增加越来越多目标的运行时间。

TaMOs-SwinBase在联合跟踪10个目标时，单个目标的帧速率为13.1 FPS，而10个目标的帧率为9.3 FPS。

SOT数据集上的SOTA对比

论文在流行的大规模GOT基准上评估TaMOs，其中每个视频只跟踪一个目标。论文在这些设置中部署相同的跟踪器，而不改变其权重或任何超参数。

LaSOT：这个大规模数据集由280个测试序列组成，平均2500帧。表3显示了与最近的SOT跟踪器的比较。虽然主要设计用于处理多目标，但论文的跟踪器实现了最高的精度和第二高的成功率AUC。它略优于MixFormer，仅次于专用OSTrack。注意，MixFormer和OSTrack都不会对整个视频帧进行操作，而是依赖于局部搜索区域来产生如此高的跟踪精度。因此，这些结果显示了在全局范围内应用基于Transformer的跟踪器的巨大潜力。此外，论文不采用任何运动先验，例如搜索区域选择[3，7，38，62]或空间窗[30，31]，这被认为是跟踪中的标准。

**TrackingNet [41]**：大规模TrackingNet数据集由511个测试序列组成，在线评估服务器用于评估跟踪预测。表3显示，论文的SwinBase跟踪器在成功率和精确AUC方面创下了TrackingNet的最新水平。类似地，论文的Resnet-50跟踪器在使用该主干的所有跟踪器中取得了最好的结果。这些结果再次证明了多目标GOT跟踪器的巨大潜力，即使对于SOT也是如此。

消融实验

论文基于Resnet-50展开消融实验。

通用多目标编码：为了更好地评估每个目标编码组件的贡献，论文训练模型的不同变体。表4显示了高斯分数图编码、LTRB目标框编码和存储在池E中的目标嵌入总数m的影响。表4中的前两行显示，LTRB目标框编码比高斯分数图更重要（因为删除前者会更显著地降低所有结果）。所提出的通用多目标编码中的另一个关键因素是不同目标嵌入的数量，该数量设置了可跟踪对象数量的上限。LaGOT需要至少10个嵌入，当使用10个pool size时，论文的跟踪器可以获得最佳结果。增加嵌入的数量会降低整体跟踪性能。使用10个嵌入效果最好的一个可能解释是，除了MS-COCO之外，所有训练数据集每个训练序列最多包含10个目标。因此，论文的最终跟踪器同时使用编码和pool size为10。

结构：与基线ToMP[38]相比，要么保留Resnet-50主干，要么用Swin-Base替换。表5显示，使用Swin-Base明显提高了LaSOT和LaGOT的跟踪性能（第1行与第3行）。类似地，添加FPN改善了LaSOT和LaGOT的结果，对后者显示出更大的好处。因此，论文在最终版本中使用FPN，并报告两种主干类型的所有结果。

推理设置：表6显示了仅使用初始训练帧或添加带有预测标注的最新训练帧时跟踪器的跟踪性能。论文得出的结论是，包括第二个训练帧大大提高了结果，尤其是在LaSOT上。因此，论文在最终设置的推断过程中包括第二个训练帧。

结论

论文提出了一种新的多目标GOT跟踪基准LaGOT，该基准允许评估可以在同一序列中联合跟踪多个目标的GOT方法。论文进一步提出了一种基于Transformer的跟踪器，能够同时处理多个目标。论文的方法集成了一种新的通用多目标编码和FPN，以实现全帧跟踪。本文在LaGOT基准上优于最近的跟踪器，同时在跟踪10个目标时，运行速度比SOT基准快4倍。最后，本文的方法在大规模SOT基准测试上也取得了优异的结果。