作为ID预测的多目标跟踪

要解决什么问题?

传统MOT方法是基于检测的,这种方法根据定义将跟踪过程分为两个部分:目标检测和目标关联。他们利用鲁棒的单帧检测器,通过手工设计的启发式算法和代理任务将对象关联作为后处理步骤。然而,启发式技术的本质阻止了对训练数据的端到端利用,导致在面对复杂或新颖的场景时,人工修改变得越来越繁琐和具有挑战性

采用了什么方法?

我们将目标嵌入形成历史轨迹信息,同时考虑相应的ID作为语境提示,然后直接预测当前帧中对象的ID标签。得益于这个端到端的过程,MOTIP可以直接从训练数据中学习跟踪能力,从而摆脱繁重的手工算法。

达到什么效果?

我们的方法在复杂的场景下(如DanceTrack和SportsMOT )取得了令人印象深刻的最先进的性能,并且在MOT17上与其他基于Transformer的方法进行了竞争。

运用了什么数据集?

经典 MOT17 [ 27 ] 、 DanceTrack[ 34 ] 和 SportsMOT [ 10 ]

跟踪算法选用了?

在这里插入图片描述

评价指标选用了?

同上,还是经典的那些。

遗留问题:

尽管如此,我们的方法仍然具有一定的局限性。例如,缺乏运动估计可能会导致我们的模型在拥挤的场景中落后。

摘要

在多目标跟踪( Multiple Object Tracking,MOT )中,基于检测的跟踪方法经受了长时间的考验,该方法根据定义将跟踪过程分为两个部分:目标检测和目标关联。他们利用鲁棒的单帧检测器,通过手工设计的启发式算法和代理任务将对象关联作为后处理步骤然而,启发式技术的本质阻止了对训练数据的端到端利用,导致在面对复杂或新颖的场景时,人工修改变得越来越繁琐和具有挑战性。在本文中,我们将这个物体关联任务看作是一个End - to - End的语境ID预测问题,并提出了一个精简的基线,称为MOTIP。具体来说,我们将目标嵌入形成历史轨迹信息,同时考虑相应的ID作为语境提示,然后直接预测当前帧中对象的ID标签。得益于这个端到端的过程,MOTIP可以直接从训练数据中学习跟踪能力,从而摆脱繁重的手工算法。在没有鸣笛和鸣笛的情况下,我们的方法在复杂的场景下(如DanceTrack和SportsMOT )取得了令人印象深刻的最先进的性能并且在MOT17上与其他基于Transformer的方法进行了竞争。我们相信,MOTIP表现出非凡的潜力,可以作为未来研究的起点。该代码可在https://github.com/MCG- NJU / MOTIP上得到。

介绍

多目标跟踪( Multi-Object Tracking,MOT )的目的是在整个视频序列中,在每一帧中定位感兴趣的目标并分配其相应的身份。作为一种基本的视觉任务,它可以用于从动作识别[ 9 ]到轨迹预测[ 16 ]等众多下游任务。此外,它在许多实际应用中也值得关注,例如自动驾驶、监控等。

在这里插入图片描述

图一:各种多目标跟踪( Multi-Object Tracking,MOT )流水线的说明。检测追踪范式(图1a )总是利用替代任务来计算ID匹配的代价矩阵。逐帧跟踪方法(图1b )使用跟踪查询来表示被跟踪的目标,并逐帧传播。我们的方法(图1c )直接预测当前检测的ID标签

在MOT的历史发展中,检测跟踪范式[ 2、4、40、44、47]作为一颗耀眼的明星异军突起。根据问题的定义,他们自然地将这一过程分解为两个子任务:对象检测和关联。它们使用单帧检测器来检测当前帧中的所有目标,然后应用后处理算法将这些检测与历史轨迹相关联,从而实现在线目标跟踪,如图1a所示。准确地说,启发式方法经常被用来选择ID分配的最优解。[ 4、6、47 ]主要依靠运动信息,利用卡尔曼滤波[ 38 ]进行直线运动估计,计算交并比代价矩阵。一些方法[ 1、39、48]还加入了Re - ID特征,并使用余弦相似度进行相似度计算。尽管这些方法取得了令人称道的结果,但它们过度依赖人工设计和人为的先验假设仍然是一个令人担忧的问题。例如,卡尔曼滤波器依赖直线运动假设,难以在复杂的运动模式中精确拟合目标轨迹。同样,基于线性可分特征假设的余弦相似度在面对不可区分的外观时可能是不可靠的。因此,面对复杂或新颖的情况,基于检测的跟踪方法总是需要通过人为驱动的分析来升级启发式算法这种做法可能会导致代码库日益臃肿和错综复杂,并可能遗漏针对特定场景的最优跟踪策略

在新的时代背景下,众多研究[ 26、35、46]将DETR [ 7、52 ]扩展到多目标跟踪。跟踪对象被表示为查询,逐帧传播并用于回归对象位置,如图1b所示。借助于端到端的过程,这些方法[ 13、46]可以直接从训练数据中学习到必要的跟踪策略,使得它们可以通过直接的设计原则在复杂场景(类似于"DanceTrack" )中获得优势。尽管取得了显著的成绩,但在某些方面仍不完善。例如,在训练阶段,查询跟踪范式需要逐帧处理,这类似于循环神经网络( RNNs )的工作方式。这种性质阻碍了有效的长期训练,导致训练和推断之间的差异,最终制约了模型的性能。此外,同时处理检测和跟踪查询可能会导致冲突和相互抑制[42,45],从而导致综合性能的下降。

本文将多目标追踪任务视为一个端到端的身份预测问题,为多目标追踪任务的制定提供了一个新的视角。具体来说,给定所有被跟踪目标的历史轨迹,模型负责检测当前帧中的所有对象并直接预测其ID标签。在实际中,我们选择DETR [ 7、52 ]作为我们的检测器,因为它直接为每个对象提供嵌入,允许我们构建历史轨迹,而不需要考虑各种特征提取技术,如感兴趣区域( Region-of-Interest,RoI ),分层,池化等。为了表示不同跟踪目标的身份,我们构建了一个可学习的ID字典。基于此,我们将对象嵌入与其对应的ID嵌入进行拼接,形成历史轨迹信息。对于关键的ID预测器模块,我们采用了一种简单的转换器解码器结构。它将当前帧的对象的嵌入作为输入,根据历史轨迹信息直接预测它们的ID标签。

一方面,与基于检测的跟踪方法相比,我们的方法绕过了替代任务和启发式算法,精简了跟踪流水线,实现了从特定场景中端到端的利用跟踪能力。另一方面,我们的检测器和ID预测器都可以高度并行化,省去了跟踪-查询模型中的串行处理,从而实现了高效的长期训练,进一步释放了其潜力。此外,不需要在单个模块内同时处理检测和关联也缓解了冲突。

我们在不同的场景中评估了我们的方法。与其他基于转换器的方法相比,我们的方法在MOT17 [ 27 ]上取得了有竞争力的结果,同时在DanceTrack[ 34 ]和SportsMOT [ 10 ]上表现出显著的优越性。这些实验结果突出了我们提出的管道和模型的优势和潜力。此外,全面的消融实验也验证了我们方法的有效性。

相关工作

检测跟踪是目前社区中应用最广泛的多目标跟踪范式。这些方法[ 4、47、48 ]采用启发式算法将当前帧的检测结果与历史轨迹相关联,从而实现逐帧的在线多目标跟踪。由于传统的多目标跟踪主要集中在行人跟踪[ 11、27]上,而行人表现出相对简单的运动模式,一种自然的方法是估计他们的运动来进行目标关联。例如,SORT [ 4 ]和ByteTrack [ 47 ]通过使用卡尔曼滤波[ 38 ]进行线性运动预测,取得了令人印象深刻的跟踪性能。然而,这种直线运动假设无法捕捉到混沌轨迹。OC-SORT [ 6 ]对该算法进行了进一步的升级,使其能够适应急停和非线性运动,从而提高了在复杂场景下的性能,如DanceTrack[ 34 ]。一些方法[ 8、10、24、37、39、48]也尝试将物体外观相似度纳入测量。Deep-SORT [ 39 ]和Deep - OC - SORT [ 23 ]加入了额外的Re - ID模块来获取Re - ID特征。相比之下,像FairMOT [ 48 ]和JDE [ 37 ]这样的工作使用相同的框架进行检测和特征提取。此外,还有利用其他形式数据的方法。例如,BoT-SORT [ 1 ]通过估计相机位移来修正运动估计结果,而TrackFlow [ 25 ]则通过深度信息来增强模型。由于复杂场景中直线运动假设的不完善性,Hybrid-SORT [ 44 ]最近引入了基于物体高度和检测置信度的状态估计,增强了跟踪能力,特别是在具有挑战性的舞蹈轨迹数据集上[ 34 ]。虽然修补启发式算法仍然可以产生有竞争力的结果,但它往往会使代码库变得臃肿。而且,手工构建替代任务和依赖先验假设不允许学习特定场景下的最优策略,导致在面对未考虑的情况时需要花费大量的精力来调优参数和算法。

查询追踪是最近受DETR家族[ 7、52 ]的启发而提出的追踪范式。他们[ 26、35、46 ]将检测查询扩展到MOT任务中,使用跟踪查询来表示被跟踪的目标,并通过视频序列进行传播。Trans Track [ 35 ]搭建暹罗语变压器解码器网络进行检测和跟踪。TrackFormer [ 26 ]和MOTR [ 46 ]使用相同的转换器解码器,通过同时处理检测和跟踪查询来进行联合检测和跟踪。MQT [ 17 ]采用多个查询来表示一个被跟踪的对象,并且更关心类不可知的跟踪。MeMOT [ 5 ]构建了一个巨大的记忆库来存储历史对象特征。MeMOTR [ 13 ]建议使用长时记忆注入机制,这是一种简单而有效的提高跟踪性能的方法。然而,最近的研究[ 13、42、45]强调,新生儿和追踪对象之间的冲突仍然是查询追踪范式的一个严重问题。CO-MOT [ 42 ]和MOTRv3 [ 45 ]都试图在监管上平衡两者,可以缓解这一矛盾。

方法

在本文中,我们将多目标跟踪看作一个ID预测问题,从而提出了我们的方法MOTIP。在这一部分中,我们主要讨论了如何制定这条管道和设计我们的方法。

MOT作为ID预测问题

多目标跟踪( Multiple Object Tracking )的目标是通过每个标识k逐帧地生成有序的边界框。这意味着,对于每一帧的在线处理,它努力将检测到的物体与先前的轨迹进行匹配。我们将这些历史轨迹记为一个轨迹集T = { T1,T2,· · ·,TK } .每个T_k = (τ_k^1, τ_k^2, …, τ_k^T)揭示了第k个已识别目标的完整轨迹,其中τ_k^t表示在时间步t时该目标的轨迹片段上下文信息。在实际中,τkt的组成取决于每一种不同的方法。例如,基于运动的方法[ 4、6、47]总是利用位置、速度和加速度来表征每个轨迹,而一些Re - ID方法[ 37、39、48 ]引入了物体特征来进行外观匹配。

之前,给定历史轨迹T1:t-1,如图1所示,检测跟踪方法通过替代任务计算代价矩阵,而查询跟踪方法通过传播轨迹查询继承ID信息。在本文中,我们为MOT引入了一个新的视角,将其建模为ID预测问题。具体来说,给定当前帧It的检测结果Dt,我们直接根据历史轨迹预测它们的ID标签。在形式上,它可以表示为如下形式:

在这里插入图片描述

其中T1:t - 1表示第t帧之前的轨迹。θ是一个端到端的可学习模块,具有一个简单的分类头。它通过一个分类任务来预测ID标签,而不需要任何手工制作的代理任务。

MOTIP架构

MOTIP的整体架构令人惊讶地简单,如图2所示。它包含三个主要的组成部分,如下所述:

1、DETR检测器检测对象并提取其嵌入。
2、一个可学习的ID字典将不同的身份表示为C维嵌入。
3、ID解码器预测新检测目标的ID。

DETR检测器:
我们使用DETR [ 7、52 ],一个使用Transformer编码器-解码器架构的端到端目标检测模型作为我们的图像检测器。从原始输入图像It开始,CNN [ 15 ]主干和Transformer编码器提取并增强图像特征。接下来,解码器从N个可学习的检测查询中生成输出嵌入。它们被bbox和cls头部解码成边界框和分类置信度,如图2所示。然后,我们使用置信度阈值τ det来过滤掉负检测,并保留Mt活动目标。DETR [ 7、52 ]的使用进一步简化了我们的方法,因为它允许我们使用解码的嵌入Ot = { ot1,ot2,· · ·,o Mt t }来表示相应的目标,而不需要考虑分层或RoI技术来进行特征提取和融合。

可学习的ID词典:
一种可能的天真方法是使用独热标签来表示ID。然而,一方面,离散值不利于神经网络学习。另一方面,将模型扩展到目标数量较多的场景时,独热的形式变得不切实际,导致维度过大。因此,我们创建了一个由K + 1个可学习单词组成的ID字典I来表示身份,具体如下:

在这里插入图片描述

每个词i是一个可学习的C维嵌入。具体来说,前K个词{ i1,i2,· · ·,iK }是表示相应身份的规则token,而最后一个词ispec是表示新生对象的特殊token,还没有ID。在实际应用中,根据不同的数据集,K会被设置为一个显著大于单帧中物体平均数量的值。

历史轨迹:
MOT方法通常根据自身的需求使用不同的上下文来表示历史轨迹,如位置[ 43 ],运动[ 4、6、47],Re - ID特征[ 39、48 ]等。与许多基于Transformer的方法[ 13、46 ]一样,我们直接利用解码检测查询得到的输出嵌入来表示跟踪的目标。在实际应用中,目标嵌入e是通过简单的FFN结构从输出嵌入o中导出的。由于嵌入e不包含身份信息,我们从Eq中引入其对应的ID嵌入。( 2 )完成曲目上下文:

在这里插入图片描述

其中τ k t是跟踪对象在时间步t上的轨迹序列,单位为k,etk是它的目标嵌入。因此,每条轨迹的上下文都是一个2C维的向量,可以拼接成历史轨迹T k = ( · · · , τkt- 1 , τkt , τkt + 1 , · · ·)。需要说明的是,在实验过程中,我们只保留最近T帧的轨迹,如图2所示。

ID解码器:
为了处理不同长度的输入,我们使用具有相对时间位置编码的6层Transformer解码器作为ID预测器。它将轨迹和检测作为输入,如式( 1 )所示。( 1 ) .与式( 1 )类似。( 3 ),我们将身份域融入到检测中,形成一个2C维的标记:

在这里插入图片描述

其中otm是当前帧中嵌入的第m个主动DETR输出,ispec是ID字典中表示ID未知的特殊令牌。然后,将这些检测令牌D = { dt1,dt2,· · ·,dMt t }作为Q输入到ID Decoder中,轨迹令牌Tt - T:t - 1作为K和V。基于此,历史轨迹中的ID令牌作为一种语境提示,将特定的身份信息传播到相应的检测中。然后,解码后的c dtm通过线性投影网络转换为ID概率,如图2所示。因此,我们将ID分配步骤转化为一个K + 1分类任务,该任务可以通过交叉熵损失进行端到端的监督。

训练和推断

训练:
我们在每次训练迭代中采样一个包含T + 1帧的视频片段。然后,模型需要预测除第一帧外的每个时间步t ( 1 < t≤T + 1)的ID。为了遵守在线跟踪协议,我们在训练过程中使用因果注意力掩码,以确保只有前一帧是可见的。

对于我们提出的ID预测器,我们使用直接的交叉熵进行监督。由于每一帧中目标的数量不同,我们通过取所有目标的平均值来计算最终的id损失,如下面所示:

在这里插入图片描述

其中T + 1表示训练片段中的帧数,而第t帧中有Mt个ground - truth对象。yk m是一个指示函数,根据每个对象的同一性ground truth,如式所示。( 6 ) .在实际应用中,我们采用端到端的策略同时训练目标检测器和ID预测器。因此,我们利用一个整体损失函数L来监督这两个部分:

在这里插入图片描述

其中Lcls是焦点损失[ 18 ]。LL1和Lgiou分别表示L1损失和广义IoU损失[ 31 ]。λ cls,λ L1和λ giou是它们对应的权重系数,λ id是我们提出的id损失Lid的权重系数。

推理:
在视频序列的第一帧中,检测到的置信度大于τ new的物体被记录为新生物体,然后分配独特的身份。在随后的每个时间步t ( t > 1),我们首先用置信度阈值τ det过滤来自DETR的检测结果。然后,将这些主动检测输入到ID Decoder中,并根据最近T帧的历史轨迹Tt - T:t - 1预测相应的ID标签。在这些ID预测中,只有超过一定概率阈值τ id的预测才会被采用。任何检测置信度大于τ new但未分配给任何跟踪ID的目标都将被认为是新生目标,并被赋予新的身份。此外,一旦长期视频序列中出现的身份数量超过K,ID字典I中的令牌将循环重用。

训练中的轨迹增强:
多目标跟踪总是面临着挑战性的情况,例如遮挡、模糊或相似物体。这些挑战会导致在推理过程中ID分配错误,从而降低历史轨迹的可靠性。然而,这些情况在训练过程中不会出现,因为所有的ID都是使用二分匹配从真实数据中获得的,类似于DETRs [ 7、52 ]。因此,训练和推断之间存在分歧,这可能会降低跟踪性能。为了缓解这个问题,我们介绍了两种在训练过程中使用的轨迹增强技术。首先,我们以概率λ sw交换同一帧内两个历史目标的ID。其次,我们以λ drop的概率从给定的轨迹中随机丢弃l个连续的令牌,其中l是从均匀分布采样的随机长度。这两种方法可以在训练阶段模拟涉及目标遮挡和ID失效的场景,从而增强模型的鲁棒性。

实验

数据集和度量

数据集:
我们主要在DanceTrack [ 34 ]和SportsMOT [ 10 ]上对我们提出的方法进行评估和分析。这两个最近提出的数据集具有大规模的训练数据,这有利于网络训练,并避免了过拟合问题。此外,两个数据集都有官方的验证集,使我们可以进行探索性实验。我们也给出了在MOT17 [ 27 ]数据集上的实验结果。

度量:
我们主要使用用于评估多目标跟踪的高阶度量(高阶跟踪精度, HOTA) [ 22 ]来评估我们的方法,因为它提供了一种平衡的方式来显式地衡量目标检测和关联性能。此外,我们还列出了实验结果中的MOTA [ 3 ]和IDF1 [ 32 ]指标。

实现细节

默认情况下,我们在具有ResNet50网络[ 15 ]主干的Deformable DETR [ 52 ]上构建MOTIP,然后利用COCO [ 19 ]上的官方预训练权重初始化参数。我们的模型在PyTorch中实现,并主要在8块NVIDIA RTX 4090 GPU上进行训练。在训练过程中,虽然我们对T + 1图像进行了并行处理,但仅使用了4帧进行梯度记录。剩余的T - 3帧以无梯度模式(在PyTorch中无梯度)运行,以减少计算开销。此外,为了更快的收敛,模型在相应的数据集上进行了简短的检测预训练,更多的细节将在附录中讨论。

在实际应用中,监督权重系数λ cls,λL1,λ gou和λ id分别设置为2.0,5.0,2.0和1.0 .采用Adam W优化器,初始学习率为1.0 × 10-4,权重衰减为5.0 × 10 - 4。舞蹈轨迹和体育轨迹的历史轨迹最大时间长度T设置为39,MOT17设置为19。由于舞动轨迹和运动轨迹的ID字典大小K为50,而MOT17由于场景拥挤,ID字典大小为200。虽然进一步对超参数进行深思熟虑的调整可以获得更好的性能,但为了简单起见,训练增强参数λ sw和λ drop在所有数据集上都设置为0.3和0.5。

与SOTA的比较

在本节中,我们将我们的MOTIP与之前的舞蹈轨迹[ 34 ]、运动轨迹[ 10 ]和MOT17 [ 27 ]上的方法进行比较。在与其他基于Transformer的方法[ 13、26、46]的比较中,我们只列出了在标准Deformable DETR [ 52 ]和ResNet - 50 [ 15 ]上的实验结果。其他结果,如使用更多修改的DETR框架[ 20 ]或更强的骨架[ 21 ]得到的结果,将在我们的补充材料中讨论。此外,在没有使用额外数据集的情况下,我们主要比较了这两种方法的结果。额外训练数据的引入及其对应的结果也将在附录中讨论。

DanceTrack:
我们在Tab.3中的Fatigue Track [ 34 ]测试集上将MOTIP与当前最先进的方法进行了比较。1 .在没有铃声和哨声的情况下,我们的方法达到了67.5 HOTA和57.6 AssA,大大超过了其他最先进的方法。与Byte Track [ 47 ]、OC - SORT [ 6 ]和C - BIo U [ 43 ]等检测跟踪算法相比,我们的方法仅使用一个精简的ID解码器就获得了令人难以置信的关联准确率。我们建议,与手动设计的启发式方法相比,我们提出的端到端ID预测可以更有效地从复杂情况中学习跟踪能力。与同样使用Deformable DETR [ 52 ]的查询跟踪方法[ 13、46]相比,我们的方法获得了更高的检测和关联性能。我们认为,一方面,这是由于MOTIP中两种任务的形式上解耦,减少了相互冲突。另一方面,我们高度并行化的训练过程使得我们能够高效地从长时间序列中学习到更加鲁棒的跟踪策略。

SportsMOT:
我们还在表表SportsMOT [ 10 ]上比较了我们的方法。2 . SportsMOT论文中现有方法[ 47、50、51 ]的一些结果使用了额外的训练数据。为了公平比较,我们选取了两种具有代表性的方法Byte Track [ 47 ]和OC - SORT [ 6 ],在没有额外训练数据的情况下,使用它们的官方代码库来报告它们的结果。在这个比较中,我们的模型表现出显著优越的性能,即71.9 HOTA。特别是与一些专注于对象关联的强大竞争者相比,如OC - SORT [ 6 ]和MeMOTR [ 13 ],我们的方法显示出令人印象深刻的关联性能( 62.0 Ass A和75.0 IDF1)。这些实验结果表明,我们的方法可以推广到不同的场景,如SportsMOT [ 10 ]代表了与DanceTrack [ 34 ]截然不同的场景,具有快速运动和相机位移的特点。

MOT17:
作为行人多目标跟踪的代表性基准,我们也在Tab中的MOT17 [ 27 ]测试集上汇报了实验结果。3 .
与之前的方法[13, 46, 47]类似,我们引入CrowdHuman数据集[33]作为额外的训练数据,以缓解过拟合问题。见表2。3,我们将现有方法的结果分为基于CNN和基于Transformer的两组,因为基于变压器的检测器[ 7、52 ]在检测小而密集的目标时表现出局限性。与精心设计的MOTR [ 46 ]相比,我们的MOTIP取得了更好的跟踪性能( 59.2 HOTA )。值得注意的是,在相同的Deformable DETR [ 52 ]框架下,我们的方法取得了明显更好的检测性能( 62.0比58.9 Det A)。我们将这种改进归因于这样一个事实,即在形式上,我们不需要同时处理检测和关联任务,从而避免了它们之间的冲突。然而,与最近的基于CNN的方法[ 6、47 ]相比,仍然存在一定的差距,这仍然是未来努力的重点。

消融实验

我们在DanceTrack [ 34 ]和SportsMOT [ 10 ]上进行消融实验,因为它们有大规模的训练数据和官方验证集。除非另有说明,否则所有的轨迹增强技术都不能使用,即λ sw = 0.0和λ drop = 0.0。更多的细节将在附录中讨论。

不同的跟踪管道:
第3.1节介绍了一种新颖的公式,它将对象关联视为一个ID分类任务,而我们仅利用DETR中的对象嵌入来表示跟踪目标。为了验证我们提出的流水线的优越性,我们额外构造了两种不同的策略来完成ID分配。我们采用的策略之一类似于基于ReID的方法。它直接监督历史轨迹与当前目标之间嵌入的余弦相似度。在推理过程中,选择最小代价匹配。另一种策略是用广泛使用的对比损失函数( info NCE ) [ 30 ]代替监督。我们将上述两种策略和我们的策略分别记为cosine,counter和id pred。如表所示。4 ( # 4 ~ # 6),在检测性能相似的情况下,我们提出的ID预测方法( # 6 )实现了显著更好的跟踪性能。我们相信,与人工设计的相似度计算方法(如余弦相似度)相比,我们的ID Predictor可以学习到更合适的方法来直接从数据中分配ID。

一阶段vs两阶段训练:
见表2。4,我们还探索了不同的训练策略:One - Stage同时训练检测和跟踪部分,而Two - Stage则先训练DETR网络进行目标检测,然后将其冻结以训练额外的跟踪部分。实验结果表明,无论采用哪种跟踪策略,一阶段训练都能取得较好的效果。我们认为联合训练可以帮助DETR学习到更多可区分的对象嵌入。同时,冻结的DETR网络为三个跟踪管道提供了一个公平的竞争场(表中# 1 ~ # 3。4 ),因为输出嵌入是一致的。在这场比赛中,我们提出的ID解码器仍然获得了最好的跟踪性能,进一步证实了我们方法的优势。

ID Decoder的可视化:
在图3中,我们还可视化了复杂场景下ID解码器的交叉注意力权重。对于对象5,从638帧到641帧,一个舞者站在后面,被其他舞者遮挡,其与自身历史轨迹之间的注意力权重被描绘成热力图。相比之下,对象1和对象2选择信任最近的轨迹嵌入(帧641 ),因为它们过去没有被遮挡。这些观察验证了我们的ID解码器可以动态捕获可靠的轨迹嵌入,特别是在复杂情况下。这也解释了为什么相比于其他跟踪流水线,我们的方法在Tab中取得了更好的跟踪性能。4 .

一热vs可学习的ID嵌入:
对于式( 1 )所示的ID字典。( 2 ),我们比较了one - hot嵌入和可学习嵌入的使用,如表中所述。5 .实验结果表明,可学习的ID令牌可以获得更好的结果。我们将这种改进归因于端到端的训练过程。不仅如此,可学习嵌入优秀的可扩展性也是最终选择的重要原因。

ID Decoder中的自我注意:
我们的ID解码器是一个由交替的自注意力和交叉注意力层组成的堆栈,遵循变压器(transformer)的标准架构[36]。虽然仅使用交叉注意力可以从轨迹中获取身份信息,但自注意力有助于新检测到的目标交换身份信息,从而在ID预测过程中相互区分。表6中的实验证明,引入自注意力确实提高了我们的跟踪性能。此外,这还表明为每个目标独立预测ID也能产生令人满意的结果,验证了我们的流程的鲁棒性。

训练中的轨迹增强:
我们在表中探究了不同概率超参数的影响。7,在SportsMOT [ 10 ] val集上.当λ drop设置为0.5时,跟踪性能显著提高。然而,如果丢弃过多的令牌,则会使训练过于具有挑战性,不利于最终的性能。同样,我们也进行了不同λ sw值的烧蚀实验。当λ sw从0.1逐渐增加到0.5时,当λ sw为0.3时,我们的方法获得了最高的HOTA和AssA分数。我们认为,交换部分历史轨迹可以增强模型的稳健性,但选择合适的比例至关重要。因此,我们结合这两个轨迹增强过程的最优参数,即λ drop = 0.5和λ sw = 0.3,与其他先进方法进行了对比实验。

对ID提示语的研究:
如Eq . ( 3 ),历史轨迹由对象嵌入e和ID嵌入i组成。后者作为语境提示,提示ID解码器预测相应的身份。为了验证其有效性和鲁棒性,我们在推理过程中随机地改变ID赋值的顺序,并进行了20次实验。因此,在不同的实验中,同一轨迹的识别提示是不同的。表2中的统计结果。8表明,在不同的ID提示下,我们的模型总能取得令人满意的性能。

总结

提出了一种新的基于精简ID预测流水线的多目标跟踪系统设计方法MOTIP。在没有鸣笛和哨声的情况下,该方法在各种基准上取得了令人印象深刻的跟踪性能。尽管如此,我们的方法仍然具有一定的局限性。例如,缺乏运动估计可能会导致我们的模型在拥挤的场景中落后。然而,前面的道路是漫长的,与广泛发展的成熟范式相比,我们的道路仍然是初学者的道路。它所展示的潜力使我们对一个充满希望的未来充满信心。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

在地球迷路的怪兽

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值