StrongSORT:Make DeepSORT Great Again

0. 摘要

现有的多目标跟踪(MOT)方法大致可分为基于检测的跟踪(tracking-by-detection)和联合检测关联(joint-detection-association)两种,虽然后者已经引起了更多的关注,并且表现出与前者相当的性能,但我们认为从跟踪精度来看,检测跟踪(tracking-by-detection)仍然是目前最优的解决方案。本文对经典的跟踪器DeepSORT进行了回顾,并从检测、嵌入和关联等方面对其进行了升级,提出了一种称之为StrongSORT的跟踪器,在MOT17和MOT20上设置了新的HOTA和IDF1记录。

我们还提出了两种轻量级、即插即用的算法来进一步完善跟踪结果。首先,提出了一种无外观链接模型appearence-free link(AFLink)模型,将短轨迹关联成完整的轨迹。据我们所知,这是第一个没有外观信息的全局链接模型。其次,我们提出了高斯平滑插值Gaussian-smoothed interpolation(GSI)方法来补偿漏检。GSI不像线性插值那样忽略运动信息,而是基于高斯过程回归算法,可以实现更精确的定位。此外,AFLink和GSI可以插入到各种跟踪器中,相应产生的额外计算成本可以忽略不计(在MOT17上分别为591.9 Hz和140.9 Hz)。通过将StrongSORT与这两种算法相结合,最终的跟踪器Strong Sort++在HOTA和IDF1指标方面在MOT17和MOT20上排名第一,并以1.3-2.2的优势超过第二名。

1. 引言

多目标跟踪(MOT)在视频理解中起着至关重要的作用。它旨在用于逐帧检测和跟踪所有特定类别的目标。在过去的几年里,tracking-by-detection[3,4,36,62,69]在MOT任务中占据主导地位。它按帧执行检测,并将MOT问题形式化为数据关联任务。得益于高性能的目标检测模型,基于检测的跟踪方法以其优良的性能而广受青睐。

图1.IDF1-MOTA-HOTA在MOT17和MOT20测试集上与我们提出的StrongSORT和StrongSORT++进行的最先进跟踪器的比较。水平轴是MOTA,垂直轴是IDF1,圆的半径是HOTA。“*”代表我们的复制版本。我们的StrongSORT++实现了最好的IDF1和HOTA以及可与之媲美的MOTA性能。

然而,这些方法通常需要多个计算代价很大的组件,例如检测器和嵌入模型。为了解决这一问题,最近的几种方法[1,60,74]将检测器和embedding模型集成到一个统一的框架中。此外,联合检测和嵌入训练似乎比单独的检测和嵌入训练产生了更好的效果。因此,联合检测器与单独检测器相比,实现了相当的跟踪精度,甚至更高的跟踪精度。

联合跟踪器的成功促使研究人员为各种组件设计统一的跟踪框架,例如检测、运动、嵌入和关联模型[30,32,38,57,59,65,68]。然而,我们认为这些联合框架中存在两个问题:(1)不同组件之间的竞争和(2)用于联合训练这些组件的数据有限。虽然已经提出了几种策略来解决这些问题,但这些问题仍然降低了跟踪精度的上限。相反,seperate trackers的潜力似乎被低估了。

在本文中,我们回顾了经典的独立跟踪器DeepSORT[62],它是最早将深度学习模型应用于MOT任务的方法之一。DeepSORT的性能不如最先进的方法是因为它的技术落后,而不是它的跟踪模式本身,通过简单地为DeepSORT的组件各个方面配置先进的,我们证明了借此产生了所提出的StrongSORT,它可以在流行的基准MOT17[35]和MOT20[11]上实现新的SOTA。

本文提出了两种轻量级、即插即用、模型无关、外观无关的算法来改进跟踪结果。首先,为了更好地利用全局信息,几种方法提出通过使用全局链接模型将短轨迹关联到轨迹[12,39,55,56,67]。它们通常生成准确但不完整的轨迹,并用离线的方式将它们与全局信息关联。虽然这些方法显著提高了跟踪性能,但它们都依赖于计算密集型模型,尤其是appearance embeddings。相反,我们提出了一种只利用时空信息来预测两个输入轨迹是否属于同一ID的AFLink模型。

其次,线性插值被广泛用于补偿缺失检测[12,21,37,40,41,73]。但是,该算法忽略了运动信息,限制了插值位置的精度。为了解决这个问题,我们提出了高斯平滑插值算法(GSI),它通过使用高斯过程回归算法来增强插值[61]。

大量的实验结果表明,这两种算法在StrongSORT和其他最先进的跟踪器(如CenterTrack[77]、Transtrack[50]和FairMOT[74])上取得了显著改进。特别地,通过将AFLink和GSI应用于StrongSORT,我们得到了一个更强的跟踪器,称为Strong-Sort++。在MOT17测试集上达到64.4HOTA、79.5IDF1和79.6MOTA(7.1 Hz),在MOT20测试集上达到62.6HOTA、77.0IDF1和73.8MOTA(1.4 Hz)。图1将我们的StrongSORT和StrongSORT++与MOT17和MOT20测试集上最先进的跟踪器进行了比较。我们的方法获得了最好的IDF1和HOTA,并且获得了与MOTA相当的性能。此外,AFLink和GSI分别在MOT17上运行591.9 Hz和140.9 Hz,在MOT20上运行224.0 Hz和17.6 Hz,导致计算量可以忽略不计。

本文的主要工作或贡献如下:

  1. 对经典的独立跟踪器DeepSORT进行了改进,提出了在MOT17和MOT20数据集上达到新的HOTA和IDF1记录的StrongSORT算法;

  1. 提出了AFLink和GSI两种轻量级、appearance-free的跟踪算法,可以嵌入到各种跟踪器中,大大提高了跟踪性能;

  1. 通过将StrongSORT与AFLink和GSI集成,在广泛使用的HOTA和IDF1指标方面,我们的StrongSORT++在MOT17和MOT20中排名第一,并以1.3-2.2的优势超过第二名[73]。

2.相关工作

2.1 独立联合检测器

MOT方法可分为单独跟踪器和联合跟踪器。独立跟踪器[3,4,7,8,15,36,62,69]遵循先检测后跟踪的范式,首先定位目标,然后将它们与外观、运动等信息相关联,得益于目标检测的快速发展[17,42,43,52,53,78],独立跟踪器多年来一直主导着MOT任务。最近,人们提出了几种联合跟踪器[30,32,38,57,59,65,68]来联合训练检测和其他一些组件,如运动、嵌入和关联模型,这些跟踪器的主要优点是计算成本低,性能相当。然而,我们声明联合跟踪器面临两大问题:不同组件之间的竞争,有限的数据用于训练联合组件。这两个问题限制了跟踪精度的上限,因此,我们认为tracking-by-detection仍然是跟踪性能的最佳解决方案。

与此同时,最近的一些研究[48,49,73]已经放弃了外观信息,而只依赖于高性能的检测器和运动信息,它们在MOT挑战基准上获得了高运行速度和最先进的性能[11,35]。然而,我们认为这在一定程度上是由于这些数据集中运动模式的普遍简单性。在更复杂的场景中,放弃外观特征会导致较差的鲁棒性。本文采用类DeepSORT[62]范式,并从各个方面为其配备了先进的技术,以证实这一经典框架的有效性。

2.2 MOT中的全局link

为了利用丰富的全局信息,几种方法使用全局link模型[12,39,55,56,67]来改进跟踪结果。他们倾向于通过首先使用时空和/或外观信息来生成准确但不完整的tracklets。然后,通过以一种灵活的方式探索全局信息,将这些tracklets链接起来。TNT[56]设计了一个多尺度TrackletNet来测量两个tracklets之间的连通性。它利用多尺度卷积核在统一的网络中对运动和外观信息进行编码。TPM[39]提出了一种tracklet-平面匹配过程,将容易混淆的tracklets推送到不同的tracklet-平面中,这有助于减少tracklet匹配步骤中的混淆。ReMOT[67]是从ReMOTS[66]改进的。给定任何跟踪结果,ReMOT都会将不完美的轨迹拆分成tracklet,然后将它们与外观特征合并。GIAOTracker[12]提出了一种复杂的全局链接算法,该算法使用改进的ResNet50-TP模型[16]对tracklet外观特征进行编码,并将tracklet与空间和时间代价相关联,虽然这些方法都取得了显著的改进,但都依赖于外观特征,带来了较高的计算代价。不同的是,我们提出了AFLink模型,该模型只利用运动信息来预测两个tracklet之间的链接概率。通过设计合适的模型框架和训练过程,AFLink 以微不足道的额外成本使各种最先进的跟踪器受益。据我们所知,这是MOT任务的第一个外观自由和轻量级的全局链接模型。

2.3 MOT中的插值

线性插值被广泛用于填补形成检测的恢复轨迹的空白[12,21,37,40,41,73]。尽管线性插值简单有效,但它忽略了运动信息,这限制了存储的边界框的精度。为了解决这一问题,人们提出了几种有效利用时空信息的策略。V-IOUTracker 扩展了 IOUTracker,在发生漏检时回退到单目标跟踪。MAT [19]采用循环伪观测轨迹填充策略对线性插值轨迹进行非线性平滑。需要额外的相机运动补偿模型[14]和卡尔曼滤波[26]来预测丢失位置。MAATrack[49]通过只应用CMC模型简化了它。所有这些方法都使用额外的模型,即单目标跟踪器、CMC法、卡尔曼滤波,以换取性能的提高。相反,我们建议在高斯过程回归(GPR)算法的基础上对非线性运动进行建模[61]。在不增加额外耗时组件的情况下,我们提出的GSI算法在精度和效率之间取得了很好的折衷。

图2.DeepSORT和Strong-Sort的结构和性能比较。基于YOLOX[17]预测的检测,在MOT17验证集上评估性能。

与我们的 GSI 最相似的工作是 [79],它使用 GPR 算法来平滑未插值的轨迹,以进行准确的速度预测。但是,它适用于监控视频中的事件检测任务。不同的是,我们对 MOT 任务进行了研究,并采用 GPR 来改进插值定位。此外,我们提出了一个自适应平滑因子,而不是像 [79] 那样预设超参数。

3 StrongSORT

在本节中,我们将介绍改进经典trackerDeepSORT[62]的各种方法。具体地说,我们在3.1节中回顾了DeepSORT,并在3.2节中介绍了StrongSORT。值得注意的是,我们在这一节中没有声称有任何算法新颖性。相反,我们在这里的贡献在于对DeepSORT有了一个清晰的理解,并为其配备了各种先进的技术来证明其范式的有效性。

3.1 DeepSORT回顾

我们简要地将DeepSORT概括为一个由两个分支组成的框架,即外观分支和运动分支,如图2的上半部分所示。

在外观分支中,给定每一帧中的检测,应用在行人重识别数据集MARS[75]上预训练的深度外观描述符(一种简单的CNN)来提取其外观特征,并利用feature bank机制来存储每条轨迹的最后100帧的特征。随着新检测的到来,第i个tracklet的feature bank 和第j个检测的特征之间的最小余弦距离被计算为

在关联过程中,将距离作为匹配代价代价函数。

在运动分支中,卡尔曼滤波算法[26]负责预测当前帧中轨迹的位置。然后,利用马氏距离来衡量轨迹和目标之间的时空差异性。DeepSORT以此运动距离为阈值来滤除不可能的关联。

然后提出匹配级联算法将关联任务作为一系列子问题来求解,而不是全局分配问题。其核心思想是赋予更频繁出现的目标更高的匹配优先级,每个关联子问题都使用匈牙利算法[29]来求解。

3.2 Stronger DeepSORT

我们对DeepSORT的改进主要体现在两个分支上,如图2的下半部分所示。对于外观分支,应用了更强大的外观特征提取器BOT[34]来取代原来简单的CNN。该算法以ResNeSt50[71]为主干,在DukeMTMC-Reid[44]数据集上进行预训练,可以提取更具区分性的特征。此外,我们用[60]中提出的特征更新策略替换了特征库,该策略以指数移动平均(EMA)的方式更新帧t处第i个轨迹的外观状态 ,如下所示:

其中,是当前匹配检测的外观嵌入,并且 α=0.9 是动量项。EMA更新策略不仅提高了匹配质量,而且减少了时间消耗。

对于运动分支,类似于[19,27,49],我们采用ECC[14]进行摄像机运动补偿。此外,普通卡尔曼滤波很容易受到低质量检测的攻击[49],并且忽略了检测噪声尺度上的信息。为了解决这个问题,我们借用了[12]中的NSA卡尔曼算法,提出了一个自适应计算噪声协方差k的公式:

其中Rk是预先设定的常量测噪声协方差,ck是状态k下的检测置信度分数,并且在匹配过程中不再只使用外观特征距离,而是同时考虑外观和运动信息,类似于[60]。成本矩阵是外观成本和动作成本的加权和,如下所示:

其中,权重因子λ设置为0.98.另一个有趣的发现是,虽然匹配级联算法在DeepSORT中不是微不足道的,但随着跟踪器变得更强大,它限制了性能。原因是,随着跟踪器变得更强大,它对容易混淆的关联也变得更加健壮。因此,附加的先验约束会限制匹配精度。我们用普通的全局线性分配来代替匹配级联(matching cascade)。

4 StrongSORT++

我们在第三节介绍了一个强大的跟踪器。在这一节中,我们介绍了两种轻量级、即插即用、模型无关、外观无关的算法,命名为AFLink和GSI,以进一步完善跟踪结果。我们称最终的方法为StrongSORT++,它集成了StrongSORT和这两种算法。

4.1 AFLink

Tracklet的全局链接在几个works中使用,以追求高准确率的关联。然而,它们通常依赖于计算昂贵的组件和大量的超参数来微调。例如,GIAOTracker[12]中的链接算法利用改进的ResNet50-TP[16]来提取Tracklet 3D特征,并执行与附加的空间和时间距离的关联。这意味着需要微调6个超参数(3个阈值和3个权重因子),这会带来额外的调整实验,并且鲁棒性很差。此外,我们发现过度依赖外观特征很容易受到噪声的影响。受此启发,我们设计了一个appearance-free的模型,AFLink,仅依靠时空信息预测两个tracklet之间的连通性。

图3.AFLink模型的框架。它采用两个轨迹的时空信息作为输入,然后预测它们的连通性。

图3显示了AFLink模型的两个分支框架。它采用两个轨迹 作为输入,其中 由最近 帧的帧和位置 组成。零填充用于短于30帧的图像。特征提取采用时间模块,沿时间维度与7×1个核进行卷积。然后,融合模块对来自不同特征维数f, xy的信息进行1×3卷积,将得到的两个特征映射分别合并和压缩成特征向量,然后进行拼接,包含丰富的时空信息。最后,使用MLP来判断关联的置信度分数。请注意,两个分支的时态模块和融合模块没有绑定。

4.2 GSI

插值被广泛地用来填补因漏检而造成的轨迹空白。线性插值因其简单性而广受欢迎。但是,由于没有使用运动信息,其精度受到限制。虽然已经提出了几种策略来解决这一问题,但通常都会引入额外的耗时模块,如单目标跟踪器、卡尔曼滤波器、纠错码等。不同的是,我们提出了一种轻量级的插值算法,它使用高斯过程回归[61]来建模非线性运动。

我们将第i 段轨迹的GSI模型表示如下:

其中 是帧,是帧t处的位置坐标变量(即)并且是高斯噪声。给定长度为L的轨迹 ,通过拟合函数来解决非线性运动建模问题,假设其服从高斯过程,其中是径向基核函数。根据高斯过程的性质,在给定新的帧集的情况下,对其平滑位置 进行了预测

其中 K(⋅,⋅)是基于 k(⋅,⋅)的协方差函数。此外,超参数 λ 控制着轨迹的平滑度,这应该与其长度有关。我们简单地将其设计为与长度l相适应的函数,如下所示:

其中 τ 被设置为10。

图4.说明线性插值(LI)和提出的高斯平滑插值(GSI)之间的区别。

图4举例说明了GSI和线性插值(LI)之间的区别。原始跟踪结果(橙色)通常包括噪波抖动,而LI(蓝色)忽略运动信息。我们的GSI(红色)通过使用自适应平滑度因子平滑整个轨迹,同时解决了这两个问题。

5 实验验证

5.1 Datasets and Evaluation Metrics

数据集。在“私有检测”协议下,我们在MOT17[35]和MOT20[11]数据集上进行了实验。MOT17是目前流行的MOT数据集,它包含7个序列5316帧用于训练,7个序列5919帧用于测试。MOT20是为高度拥挤的挑战性场景设置的,有4个序列8931帧用于训练,4个序列4479帧用于测试,对于消融研究,我们取MOT17训练集中每个序列的前一半用于训练,后半部分用于验证[73,77]。我们使用DukeMTMC[44]来预先训练我们的外观特征提取器。我们在CrowdHuman数据集[46]和MOT17半训练集上训练检测器,以便在[50,63,70,73,77]之后进行消融。我们添加CityPerson[72]和ETHZ[13]用于测试,如[30,60,73,74]。

结果评估。我们使用指标MOTA、IDS、IDF1、HOTA、ASSA、DETA和FPS来评估跟踪性能[2,33,44]。MOTA是基于FP、FN和ID计算的,更关注检测性能。相比之下,IDF1更好地衡量ID匹配的一致性[23]。HOTA是检测分数DATA和关联分数ASSA的显式组合,它将精确检测和关联的效果平衡到单一的统一指标中。此外,它不像MOTA和IDF1那样设置单一的值(即0.5),而是在预测和GT边界框之间以不同的检测相似度值(0.05到0.95在0.05的间隔内)进行评估,并且更好地考虑了定位精度。

5.2 Implementation Details

对于检测,我们采用在COCO[31]上预训练的YOLOX-X[17]作为我们的检测器,以提高时间精度。训练与[73]中的类似。在推理中,将非最大抑制(NMS)的阈值设置为0.8,将检测置信度的阈值设置为0.6。对于StrongSORT,特征距离阈值为0.45,ECC的翘曲模式为运动欧几里得,均线方程中的动量项α为0.9,外观成本λ的权重因子为0.98。对于GSI,允许插值的最大间隙是20帧,超参数τ是10。

对于AFLink,时间模块由4个卷积层组成,具有7×1个内核和{32,64,128,256}个输出通道。每个卷积之后是BN层[24]和RELU激活层[18]。融合模块包括1×3卷积、BN和REU。它不会改变频道的数量。该分类器是具有两个全连接层和插入其间的RELU层的MLP。训练数据是通过以1:3的正负样本比率将带注释的轨迹切割成具有随机时空噪声的轨迹来生成的。我们使用Adam作为优化器[28],以交叉熵损失为目标函数,并用余弦退火学习率调度对其进行了20个周期的训练。整个训练过程仅需10秒多一点。在推理中,时间距离阈值为30帧,空间距离阈值为75像素,用于过滤提取不合理的关联对。最后,如果关联性的预测得分大于0.95,则考虑该关联性。

5.3 Ablation Studies

StrongSORT的消融研究。表1总结了从DeepSORT到StrongSORT的路径:

  1. BoT: 用BOT替换原来的特征提取器导致IDF1的显著改善,表明关联质量受益于更具区分性的外观特征。

  1. ECC: CMC模型导致IDF1和MOTA略有增加,这意味着它有助于提取更精确的运动信息

  1. NSA: NSA卡尔曼滤波改善了HOTA,但没有改善MOTA和IDF1。这意味着它提高了定位精度。

  1. EMA:EMA特征更新机制不仅带来了更好的关联性,而且速度更快。

  1. MC:与外观和动作成本辅助关联都匹配。

  1. woC:对于较强的跟踪器,具有冗余先验信息的匹配级联算法限制了跟踪精度。通过简单地采用avanilla匹配方法,IDF1得到了较大幅度的改善。

AFLink和GSI的消融研究。我们在六个不同的跟踪器上应用AFLink和GSI,即三个版本的StrongSORT和三个最先进的跟踪器(CenterTrack[77]、Transtrack[50]和FairMOT[74])。它们的结果如表2所示。每个跟踪器的结果的第一行是原始性能。AFLink(第二行)的应用为不同的跟踪器带来了不同程度的改进。具体地说,由于更多的关联缺失,表现较差的跟踪者往往从AFLink中获益更多。特别是,CenterTrack的IDF1改进了3.7。每个跟踪器的第三行结果证明了GSI对于检测和关联的有效性。与AFLink不同的是,GSI在更强大的追踪器上工作得更好。它会被糟糕的跟踪器中的大量错误关联所迷惑。表3将我们的GSI与LI进行了比较。结果表明,GSI算法以较小的额外计算量获得了较好的性能。

5.4 MOTChallenge Results

我们将StrongSORT,StrongSORT+(StrongSORT+AFLink)和StrongSORT++(StrongSORT+AFLink+GSI)分别在MOT17和MOT20的测试集上与最先进的跟踪器进行了比较,如表4和表5所示,值得注意的是,比较FPS具有绝对公平性是困难的,因为每种方法要求的速度取决于它们实现的设备,并且跟踪检测所花费的时间通常被排除在外。

MOT17。对于HOTA、IDF1、ASA、DETA等指标,StrongSORT++在MOT17发布的所有方法中排名第一,在MOTA、IDS方面排名第二。与之相比,它产生了准确的关联,并大大超过了第二性能的tracker(即+2.2IDF1和+2.4ASSA)。我们使用与消融研究中相同的超参数,并且不像在[73]中那样在每个序列中仔细地调整它们。在测试集上的稳步改进证明了我们方法的有效性。值得注意的是,我们复制的DeepSORT版本(具有更强大的检测器和几个可调的超参数)也在基准测试中运行良好,这证明了类似DeepSORT的跟踪范例的有效性。

MOT20。MOT20来自更拥挤的场景。高度遮挡意味着遗漏检测和关联的高风险。StrongSORT++仍然位居HOTA、IDF1和ASSA的第一位。与其他跟踪器相比,它获得的ID要少得多。请注意,我们使用与MOT17中完全相同的超参数,这意味着我们方法的泛化能力。与几种跟踪器相比,其检测性能(MOTA和DETA)略差。我们认为这是因为我们使用与MOT17相同的检测分数阈值,这会导致许多检测丢失。具体地说,我们的StrongSORT++的FN(假阴性数)是117,920,而ByteTrack[73]的FN只有87594。

定性结果。图5可视化了MOT17和MOT20测试集上强排序++的几个跟踪结果。MOT17-01的测试结果表明,该方法在正常情况下是有效的。从MOT17-08的结果中,我们可以看到遮挡后正确的关联。MOT17-14的实验结果证明了我们的方法能够在摄像机移动的情况下很好地工作,MOT20-04的实验结果显示了强排序++算法在严重遮挡场景下的优异性能。

5.5 Limitations

StrongSORT和StrongSORT++仍有几方面的不足或局限性。主要的问题是,与联合跟踪器和几种appearance-free的单独跟踪器相比,这两种方法的运行速度相对较低。在提高计算效率方面还有待进一步研究。此外,虽然我们的方法在IDF1和HOTA指标中名列前茅,但它的MOTA略低,这主要是由于检测分数的高门限造成了许多漏检。我们相信精心设计的阈值策略或关联算法会有所帮助。至于AFLink,虽然它在恢复丢失的关联方面做得很好,但它对错误关联问题无能为力。具体来说,AFLink不能将ID混淆的tracklets拆分成精确的tracklets。未来需要开展工作以制定更强大、更灵活的全局关联策略。

6 结论

本文对经典跟踪器DeepSORT进行了重新审视,并对其进行了多方面的改进。所得到的StrongSORT在MOT17和MOT20基准上实现了新的SOTA,验证了DeepSORT类范式的有效性,并提出了两种轻量级的appearance-free算法来进一步完善跟踪结果。实验结果表明,它们可以应用于各种最先进的跟踪器,并且可以在可以忽略的额外计算代价下提升各种跟踪器的跟踪效果。在HOTA和IDF1指标方面,我们的最终方法StrongSORT++在MOT17和MOT20上排名第一,超过第二名1.3-2.2。值得注意的是,与联合跟踪器相比,我们的方法运行相对较慢。将来,我们将进一步研究改进计算效率与跟踪精度方面取得适当的权衡。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值