单目标跟踪是计算机视觉中一个众所周知且具有挑战性的研究课题。在过去的二十年中,许多研究人员提出了各种算法来解决这个问题,并取得了令人满意的结果。最近,基于Transformer的跟踪方法由于其卓越的跟踪鲁棒性,开创了单目标跟踪的新时代。尽管已经进行了几项综述研究来分析跟踪器的性能,但在单目标跟踪中引入Transformer之后,仍需要进行另一项调查研究。本文旨在分析Transformer跟踪方法的文献和性能。因此对Transformer跟踪方法进行了深入的文献分析,并评估了它们在具有挑战性的基准数据集上的跟踪鲁棒性和计算效率。此外,论文还测量了他们在不同跟踪场景下的表现,以找出他们的优势和劣势。本文的调查深入了解了Transformer跟踪方法的基本原理、面临的挑战及其未来方向。

论文的主要贡献如下:

🔹 论文对基于Transformer的跟踪方法的文献进行了全面调查。本文没有包括基于非Transformer的跟踪器,因为之前的研究已经涵盖了它们;

🔹 论文已经通过实验评估并比较了五个具有挑战性的基准数据集上Transformers在VOT中的跟踪鲁棒性,方法是将最先进的跟踪器分类和分析为完全基于Transformer的跟踪器、基于CNN-Transformer的追踪器和基于CNN的跟踪器;

🔹 使用作者提供的源代码,在通用计算平台上评估了先进状态跟踪器的计算效率;

🔹 论文对三个基准数据集进行了跟踪属性评估,以确定最近跟踪者最具挑战性的场景;

🔹 基于实验结果,论文为基于Transformer的单目标跟踪的未来方向提供了建议。

目标跟踪~_数据集

论文在表1中总结了先前的研究,并对其进行了分类

Li等人[66]评估了:

OTB-100和VOT2015基准上22个跟踪器的性能和效率,对基于深度学习的跟踪器进行了第一次实验调查。此外,他们还根据11个跟踪属性比较了跟踪器的个人性能,然后确定了未来的方向。最近,Marvasti Zadeh等人[21]基于跟踪器的网络架构、跟踪方法、长期跟踪、鸟瞰跟踪和在线跟踪能力,对基于深度学习的VOT进行了全面的实验调查。此外,他们还根据具有挑战性的属性比较了跟踪基准,并对跟踪器进行了跟踪速度比较。

Chen等人[75]在最近开发的基准上对深度和手工制作的跟踪器进行了实验调查:

OTB、VOT、LaSOT[77]、GOT-10k和TrackingNet[79]。尽管这些实验评估研究回顾了文献,然后在几个方面比较了最近提出的深度跟踪器的跟踪性能,但它们没有太多地关注基于跟踪效率的比较。

在过去两年中,与基于CNN的深度跟踪器相比,基于Transformer的单目标跟踪器显示出了出色的跟踪性能和效率。先前的实验调查研究没有回顾基于Transformer的跟踪器的文献,也没有分析其优缺点,因此论文对这些跟踪器进行了详细的文献综述。然后分析了它们在五个基准数据集上的性能:OTB-100、LaSOT、GOT-10k、TrackingNet和UAV123[80]。此外还根据跟踪速度、浮点运算(FLOP)的数量和跟踪模型中的参数数量详细比较了这些跟踪器的效率。最后还根据实验结果讨论了基于Transformer的跟踪的未来方向。

Transformer 

Transformer[36]最初被引入机器翻译任务

基于其巨大的成功和效率,它被用于其他NLP任务,如文档汇总和生成Transformer架构基于注意力机制,通过使用编码器和解码器组件实现,如图2所示。编码器组件通过将N个相同的编码器层堆叠在彼此之上而由它们组成,并且解码器组件也由N个相同解码器层组成,它们也堆叠在彼此上。Transformer架构的编码器和解码器组件分别如图2的左侧和右侧所示。在Transformer架构中,所有编码器层都有两个子层:一个自注意力层和一个全连接的前馈层。除了这两个子层之外,所有解码器层在中间都有一个编码器-解码器注意层。

目标跟踪~_人工智能_02

Transformer架构[36]接收作为向量序列的输入

使用位置嵌入算法将关于该序列中每个令牌的位置的信息添加到其表示中。嵌入之后,输入数据被馈送到编码器的自注意力层,因为它有助于捕获上下文关系。另一方面,在解码器层中,编码器-解码器注意力子层用于集中于输入数据的相关部分。

在自注意之后,使用全连接的前馈层来学习注意力特征的复杂表示。它有一个简单的架构,其中有两个线性变换和一个非线性激活。该层可以描述为内核大小为1的两个卷积。在编码器和解码器层中,包括残差连接,然后是标准化层残差连接用于保存来自原始输入数据的线索,并使模型能够学习输入数据的更准确表示。

在解码器层堆叠之后,使用线性层来产生输出向量。最后,使用Softmax层来产生输出的概率。基于Transformer在NLP任务中的成功,一些研究尝试将其应用于计算机视觉任务,并提出了几种体系结构。在这些模型中ViT[37]比其他具有简单架构的模型更有效,如图3所示。与最先进的卷积神经网络(CNN)模型相比,当在大型数据集上进行训练时,ViT显示出优越的结果。此外,ViT的作者通过微调在中小型数据集中测试了它,并显示出适度的结果。在ViT在图像识别中取得成功之后,已经提出了几种ViT模型,并将其用于其他计算机视觉任务,如图像分割、图像增强、图像生成、视频字幕和对象跟踪。为了降低ViT的计算复杂性,Swin Transformer[41]在划分图像的非重叠窗口内局部执行自注意力,并为跨窗口连接引入了移位窗口划分机制。与ViT中的固定大小令牌不同,Swin Transformer通过从小尺寸补丁开始,然后在更深的Transformer层中逐渐合并相邻补丁,以进行多尺度预测,从而克服缩放问题,从而构建分层表示。由于纯Transformer模型难以捕获局部信息,CVT[86]将两种基于卷积的操作纳入ViT架构,即卷积令牌嵌入和卷积投影。由于ViT不太擅长编码更精细级别的特征,VOLO[87]引入了称为Outlooker的轻量级注意力机制,以有效地利用更精细级别信息对令牌表示进行编码。总体而言,ViT开创了计算机视觉任务的新时代。

目标跟踪~_人工智能_03

Transformer在单目标跟踪中的应用

🔹 基于模型架构、特征提取和特征集成技术,最近的深度跟踪器可分为三类:

🔹 基于CNN的跟踪器[29、88、89、90、31、91、32、92、93、34、33、94];

🔹 基于CNN-Transformer的跟踪器[46、47、48、49、50、51、52、53、54、55、56、57];

🔹 完全基于Transformer的追踪器[58、59、60、61、62、63、64];

基于CNN的跟踪器仅依赖于CNN架构进行特征提取和目标检测,而基于CNN-Transformer的跟踪器和完全基于Transformer的跟踪器分别部分和完全依赖于Transformer架构。鉴于之前的几项研究[76,75,71]已经全面回顾了基于CNN的跟踪器的文献,本节仅关注基于CNN-Transformer的跟踪器和完全基于Transformer的追踪器的文献。然而,基于CNN的跟踪器包含在实验分析中(第5节),其性能与基于CNN Transformer的跟踪器和完全基于Transformer的跟踪器进行了比较。

通常,Transformer架构需要大量训练样本[37]来训练其模型。由于目标是在跟踪序列的第一帧中给出的,因此在VOT中不可能获得大量样本,因此所有完全基于Transformer和基于CNN-Transformer的跟踪器都使用预先训练的网络,并将其视为骨干模型。此外,这些跟踪器中的一些在跟踪过程中更新其模型,而其中一些没有更新。此外,他们在各种基准数据集上进行了训练,如COCO[95]、LaSOT、GoT-10k、TrackingNet和Youtube BB[96]。此外,这些跟踪器中的一些使用背景信息来跟踪目标,而有些没有。表2总结了所有基于Transformer和基于CNNTransformer的方法,提供了它们的主干网络、模板更新细节、训练数据集、训练方案细节以及它们是否具有背景意识的信息。

目标跟踪~_数据集_04

论文回顾了基于CNN-Transformer和完全基于Transformer的跟踪器的模型架构的文献。这些跟踪器可分为“两流两阶段”跟踪器和“一流一阶段”跟踪器在“两流两阶段”跟踪器中,使用两个相同的网络分支管道(两个流)来提取目标图像和搜索图像的特征。此外,在这类跟踪器中,目标模板和搜索区域的特征提取和特征融合在两个可区分的阶段(两阶段)完成。另一方面,在“One Stream One Stage”跟踪器中,使用单个网络管道,通过单个阶段一起完成特征提取和特征融合。到目前为止,所有基于CNN-Transformer的跟踪器都被提出为“双流两阶段”方法,而完全基于Transformer的追踪器可以被分类为“双流二阶段”和“一流一阶段”方法。图4显示了基于CNNTransformer和完全基于Transformer的跟踪器的分类。  

目标跟踪~_特征提取_05

基于CNN-Transformer的跟踪器

最近大多数基于CNN的跟踪器[29,88,89,90,31,91,32,92,93,34,33,94]通过使用两个相同的卷积神经网络管道遵循孪生网络架构。在这些跟踪器中,通过使用两个相同的CNN分支提取目标模板和搜索区域的特征。然后通过使用相关函数在搜索区域的特征中找到目标特征的相似性来完成目标定位。尽管相关操作对于特征相似性匹配过程简单且快速,但它不足以捕捉目标模板和搜索区域之间的非线性交互(遮挡、变形和旋转),因此跟踪器的性能受到限制。为了成功地解决这个问题,研究人员开始使用Transformer对基于CNN-Transformer的跟踪器进行特征融合。

与大多数基于CNN的跟踪器类似,基于CNN-Transformer的跟踪器也使用两个类似孪生的相同网络管道。在这些管道的开头,使用CNN提取目标模板和搜索区域的特征。然后,将提取的深度特征展平为向量,然后将其馈送到Transformer以捕获搜索区域中目标的相似性。所有基于CNN-Transformer的跟踪器都使用两个流、两个阶段的方法,两个相同的网络管道分别使用卷积和Transformer架构执行特征提取和特征融合。

Wang等人提出了第一个基于CNN-Transformer的跟踪器:

[46]通过将Transformer引入生成和区分跟踪范式中。在他们的孪生式跟踪架构中,一组模板补丁和搜索区域被馈送到CNN主干,以提取深度特征。然后,如图5所示,提取的模板特征被馈送到Transformer的编码器,以使用注意力机制捕获高质量目标的特征。类似地,搜索区域特征被馈送到Transformer解码器,以通过将来自先前帧的信息性目标线索与搜索区域特征聚合来产生解码特征。在TrSiam管道中,与SiamFC[24]跟踪器类似,从编码特征中裁剪目标特征,然后与解码特征交叉关联以定位目标位置。在TrDiMP流水线中,对编码特征应用端到端鉴别相关滤波器(DCF)以生成响应图,然后使用该响应图来定位搜索区域中的目标。由于该跟踪器中使用了Transformer,因此使用了一组目标模板的提示来定位目标,因此跟踪器能够定位具有严重外观变化的目标。

Yu等人[50]在VOT中引入了编码器-解码器Transformer架构:

[36]其跟踪器称为DTT。他们还使用了类似孪生的跟踪框架,并使用主干CNN架构提取了深层特征。在他们的跟踪模型中,目标模板被输入背景场景,然后Transformer架构捕获目标的最具辨别力的线索。由于他们的方法涉及在不需要训练单独的判别模型的情况下进行跟踪,因此它很简单,并且在基准数据集中表现出了很高的跟踪速度。

TransT[47]跟踪器中提出了另一种类似孪生的架构:

如图6所示,TransT跟踪器有三个模块:CNN骨干网络、基于Transformer的特征融合网络和预测网络与其他基于CNN-Transformer的跟踪器类似,使用ResNet50[97]模型提取目标模板和搜索区域的特征。然后,使用1x1卷积层重塑这些特征,并将其馈送到特征融合网络。基于Transformer的特征融合网络具有N个特征融合层,每个层具有自上下文增强模块(ECA)和交叉特征增强模块(CFA),以分别增强自注意力和交叉注意力。最后,融合的特征被馈送到预测网络,它分别使用简单的分类和回归分支来定位目标并找到坐标。TransT跟踪器通过使用Transformer进行特征融合而不是之前方法的相关匹配,显示出比基于CNN的跟踪器更好的性能。其他相关算法可以参考论文。

目标跟踪~_特征提取_06

总之,基于CNN-Transformer的跟踪器使用CNN主干(如ResNet或AlexNet)提取了目标模板和搜索区域的深层特征。然后,这些深层特征被增强,然后通过将它们馈送到Transformer中来相互关联。最后,使用Transformer的输出特征来预测目标位置。基于CNN-Transformer的跟踪器成功地优于孪生网络,因为它们使用了可学习的Transformer而不是线性互相关运算。虽然,一些早期的跟踪器从目标检测任务中借用了Transformer架构,并在没有任何修改的情况下使用它们,但最近的方法确定了基于Transformer的跟踪问题,然后相应地修改了其架构。总的来说,基于CNN-Transformer的跟踪器显示出比基于CNN的跟踪器更好的跟踪性能。

基于全Transformer的跟踪器

尽管基于CNN-Transformer的跟踪器利用了Transformer的注意力机制进行特征增强和目标模板和搜索区域的特征集成,但它们仍然依赖卷积特征,因为它们使用主干CNN进行特征提取。由于CNN是通过局部卷积核捕获特征的,因此基于CNN-Transformer的跟踪器很难捕获全局特征表示。

最近,针对一些计算机视觉任务,如目标检测、目标分类和分割,提出了几种全Transformer架构。这些Transformer架构不依赖CNN特性,因此它们能够捕获全局特性表示。ViT[37]是计算机视觉中第一个完全Transformer架构。ViT被提出用于通过分割的图像分类,然后将图像作为16x16个图像块的序列馈送给Transformer。当ViT在大规模数据集上训练时,其表现优于基于CNN的图像分类器。由于ViT的巨大成功,计算机视觉中提出了许多后续的Transformer架构。ViT的预定义位置嵌入方案被CPVT[99] Transformer架构中的条件位置嵌入替代。TNT[100]方法使用Transformer内部转换器框架将16x16图像补丁进一步细分为4x4个子补丁。TNT中使用内部变换块和外部变换块来分别捕获子patch之间的相互作用和patch之间的关系。与CNN类似,Swin Transformer[41]通过开始学习小尺寸patch的特征表示,然后在更深的Transformer层中逐渐合并相邻面片,来捕获图像的分层表示。CVT[86]将两种基于卷积的操作合并到用于图像分类的Vision Transformer架构中,即卷积令牌嵌入和卷积投影。

由于全Transformer架构在其他计算机视觉任务中的成功,研究人员开始将其用于单目标跟踪。基于跟踪网络公式,我们将全Transformer跟踪器分为“双流两阶段”跟踪器和“一流一阶段”跟踪器,并在以下小节中回顾了它们的文献。

双流两阶段

双流两阶段跟踪器具有两个相同的、独立的孪生式基于Transformer的特征提取分支,以提取目标模板和搜索区域的特征。在特征提取之后,使用另一个Transformer网络来融合这些特征,然后预测目标位置。

Xie等人提出了第一个完全基于Transformer的“双流两阶段”跟踪器:

[58],称为DualTFR。在该跟踪器中,模板和搜索区域图像被分割为标记,然后被馈送到相应的特征提取分支。DualTFR在特征提取分支中具有一组局部注意力模块(LAB),以在小尺寸窗口中提取初一里。然后,提取的特征被馈送到全局注意力模块(GAB)以捕获长距离相关性。最后,如图11所示,两个分支的输出特征被馈送到交叉注意力模块,以计算目标模板和搜索区域之间的关注度。由于LAB在高分辨率特征地图上的标记的小窗口内计算关注度,而GAB在低分辨率特征地图中计算同一图片的所有标记之间的注意力,DualTFR跟踪器在保持高于实时速度的同时成功地实现了高精度。

目标跟踪~_数据集_07

单流一阶段

单流一阶段跟踪器具有完全基于Transformer的网络架构的单一管道。此外,在这些方法中,特征提取和特征融合过程在单个阶段中完成,而不是在前面提到的跟踪方法中的两个阶段。

Cui等人[61]发现:

结合特征提取和特征融合过程对目标跟踪很重要,因为它能够提取搜索区域中更多的目标特定线索并提高相关性。基于这一事实,他们提出了一种完全基于Transformer的单流单级跟踪器,称为MixFormer。如图13所示,MixFormer跟踪器中使用了一组混合注意力模块(MAM),以同时提取和集成目标模板和搜索区域的特征。MixFormer跟踪器使用多个目标模板和搜索区域作为输入,并使用简单的基于卷积的预测头部网络来定位目标。此外,MixFormer利用预训练的CVT Transformer[86]设计MAM模块,因为CVT非常适合捕捉图像中的局部和全局特征相关性。代替CVT的自注意力机制,MAM在目标模板和搜索区域令牌上采用双重注意机制,以分别捕获目标特定和搜索特定线索。此外,在MAM模块中使用了非对称混合注意力技术,以通过消除目标和搜索区域的标记之间不必要的交叉注意力来降低计算成本。根据报告的结果,MixFormer在基准数据集中显示出优异的跟踪性能。然而,MixFormer显示出较差的跟踪速度,因为MAM模块的计算效率很低。

目标跟踪~_搜索_08

Chen等人[62]提出了另一种单流一阶段跟踪器:

其称为Sim-Track。在该跟踪器中,如图14所示,预训练的ViT[37]模型被用作主干Transformer,以结合特征提取和融合。在Sim-Track方法中,目标模板和搜索区域被拆分为一组标记,连接起来,然后通过它们的位置嵌入被馈送到主干Transformer。由于拆分过程,目标模板标记包含一些背景区域,SimTrack采用了中央凹开窗技术来准确捕捉目标特定线索。在中央凹开窗技术中,模板图像的较小区域被裁剪,目标位于中间,然后被序列化为图像标记。除了目标模板和搜索区域的标记外,中央凹序列还被馈送到Transformer以捕获更多目标特定特征。

目标跟踪~_数据集_09

Ye等人[63]开发另一种单流一阶段方法:

称为OSTrack,它还结合了使用ViT主干的特征学习和特征融合过程,如图15所示。他们发现,来自搜索图像的一些令牌包含背景信息,因此在跟踪过程中包括这些令牌是不必要的。基于这一事实,OSTrack在一些编码器层中包括一个早期候选消除模块,以删除包含背景信息的令牌。由于采用了候选消除模块,提高了OSTrack的跟踪速度和精度。由OSTrack有效地利用了目标模板和搜索区域特征之间的信息流,提取了目标特定的辨别线索,并消除了不必要的背景特征,因此在基准数据集中表现出了优异的跟踪性能和高跟踪速度。

目标跟踪~_特征提取_10

Lan等人[64]提出了一种具有候选令牌消除模块的完整Transformer跟踪器:

其跟踪器称为ProContEXT。ProContEXT跟踪器的架构如图16所示。该跟踪器通过使用上下文感知自注意力模块来捕捉目标模板的空间和时间线索。在该跟踪器中,静态目标模板、具有空间和时间线索的动态目标模板以及搜索区域被分割,然后被馈送到关注模块。ProContEXT的候选令牌消除模块比OSTrack工作得更好,因为它在背景令牌去除中包含时间线索。根据报告的结果,ProContEXT方法优于OSTrack,并在跟踪基准方面表现出最先进的性能。

目标跟踪~_数据集_11

总之,单流一阶段跟踪器使用完全Transformer架构将特征学习和特征融合过程结合在一起。在这些跟踪器中,目标模板和搜索区域图像被拆分为标记,并与它们的位置嵌入相连接,然后被馈送到Transformer。由于这些跟踪器使用单个Transformer网络提取特征,模板标记和搜索区域的特征被有效地集成,从而识别出更多的区别性特征,并消除不必要的特征。基于这些事实,在所有基准数据集上,与其他类型的跟踪器相比,完全基于Transformerbased的单流一阶段跟踪器表现出了出色的性能。

实验分析 

在过去的二十年中,已经提出了大量用于单目标跟踪的方法。由于使用不同的评估度量在不同的基准数据集上评估了它们的性能,因此对这些方法的实验评估对于确定未来方向非常重要,特别是在VOT中引入Transformer之后。在这项研究中,论文评估了所有基于CNN Transformer和完全基于Transformer的跟踪器的跟踪鲁棒性和计算效率性能。此外,论文还将最近提出的12个基于神经网络的跟踪器纳入了这项实验评估和分析研究。五个基准数据集用于评估跟踪器的性能,其详细信息和评估指标在第5.1节中描述。第5.2节和第5.3节分别给出了跟踪鲁棒性和效率结果。

基准数据集和评估指标

构建了几个基准数据集,并可公开用于VOT。基于目标对象类、大小、注释方法、跟踪序列的长度、属性和复杂性,每个数据集都不同于其他数据集。此外,这些数据集遵循各种性能指标来衡量跟踪器的性能。为了分析最近跟踪器的性能,论文选择了五个基准数据集:OTB100、UAV123、LaSOT、TrackingNet和GoT-10k。表3总结了这些数据集的详细信息。

目标跟踪~_人工智能_12

论文评估了OTB100、UAV123、TrackingNet、La-SOT和GoT-10k基准数据集上方法的跟踪性能,并在本节中给出了定性结果。为了进行无偏见的评估并比较它们的跟踪性能,论文使用它们的源代码再现了跟踪器的成功和精度分数以及它们的属性跟踪结果。此外考虑了最近一些跟踪器的报告结果,因为它们的源代码不可用。论文为这项实验评估研究选择了31个单目标跟踪器。它们在过去四年中发表在著名的会议和索引期刊上。在本评估中,这些选定的跟踪器被分类为基于CNN的跟踪器、基于CNN Transformer的跟踪器和基于Fully Transformer的追踪器,然后讨论它们的分类性能。表4总结了这些跟踪器的总体性能,表5详细列出了它们的属性结果。以下小节将讨论这些方法对每个基准数据集的跟踪性能。 

目标跟踪~_搜索_13

目标跟踪~_人工智能_14

目标跟踪~_人工智能_15

OTB100数据集分析

论文使用OTB100的社会工具包来评估跟踪器的跟踪性能。根据曲线下面积(AUC)得分对成功图进行排名,而20像素阈值的精度(P)得分用于评估跟踪器。除了总体评估外,还使用工具包基于11个跟踪属性及其成功图测量了跟踪器的性能,如图17所示。

目标跟踪~_数据集_16

目标跟踪~_数据集_17

根据表4中的总体成功率和精度分数,基于CNN-Transformer的跟踪器和基于CNN的跟踪器总体上都取得了较高的性能。TrTr[49]跟踪器通过用变压器代替孪生跟踪的交叉关联机制,在准确度和精度方面在OTB100上表现出优异的性能。类似地,TrDiMP[46]通过利用基于CNN-Transformer的架构的时间线索,展示了竞争成功和精确得分。另一方面,基于CNN的孪生追踪器:SiamAttn[90]和SiamRN[34]分别显示出较高的成功率和准确率。

与其他基准数据集相比,完全基于Transformer的跟踪器的跟踪性能略低于OTB100上的其他两种类型。基于CNN-Transformer的跟踪器和基于CNN的跟踪器是基于暹罗架构的相似性匹配方法。他们通过捕获和匹配代表局部区域线索的卷积特征,在OTB100中表现出更好的性能。由于大多数OTB视频的帧数较少,因此目标的外观在许多序列中保持不变。因此,基于CNN的特征提取和匹配显示出优异的跟踪结果。另一方面,完全基于Transformer的方法的性能主要依赖于它们的时间线索学习和全局特征捕获能力,并且它们的性能在OTB100上略有限制,因为大多数跟踪序列具有帧数较少的低分辨率视频。

基于表5中的结果和图17中的图表,OTB100的基于属性的评估表明,数据集对最近的跟踪器不再具有挑战性。完全基于Transformer的跟踪器:MixFormer[61]、SparseTT[60]和ProContEXT[64]在许多具有挑战性的属性中显示出比基于CNN的跟踪器更好的性能。特别是,几乎所有完全基于Transformer的跟踪器都成功地处理了快速运动(FM)和视野外(OV)场景,由于其长距离特征捕获能力,其性能大大超过了基于CNN的跟踪器。另一方面,全Transformer跟踪器在背景杂波(BC)和变形(DEF)方面表现不佳,因为它们在短距离视频中的辨别能力较差。总体而言,基于CNN Transformer的跟踪器TrTr[49]通过将CNN功能与Transformer架构相结合,成功地处理了OTB100中的所有跟踪挑战。

UAV123数据集的分析

在UAV123数据集中跟踪目标比在其他基准数据集中更困难,因为目标对象在空中跟踪序列中相对较小。因此,跟踪器可以捕捉到有限的视觉线索,并且无法依赖强大的外观模型。此外,在UAV123中跟踪目标更具挑战性,因为目标对象和相机经常改变位置和方向。论文使用了UAV123的官方工具包来测量跟踪器的精度和成功率,并进行跟踪属性评估。

完全基于Transformer的单阶段单流跟踪器在UAV123中显示出基于整体精度和成功率分数的卓越性能,因为其Transformer模型结合了特征学习和未来融合过程。特别是,OSTrack[63]跟踪器在UAV123中表现出优异的性能,成功率得分为70.7%,准确率得分为92.3%。SimTrack[62]和MixFormer[61]方法在UAV123数据集中也显示出良好的结果。在基于CNN Transformer的跟踪器中,CSWinTT[56]和AiATrack[57]方法分别显示出更好的成功率和精度分数。基于CNN的跟踪器:KeepTrack[94]获得了第二高的精度分数,因为它在不严重依赖外观模型的情况下具有干扰物处理能力。

基于图18和表5,基于Transformer的跟踪器在UAV123基准测试的几乎所有属性中都表现出优异的性能。OSTrack[63]和ProContEXT[64]跟踪器成功地处理了背景杂波(BC)、部分遮挡(POC)、视野外(OV)和尺度变化(SV)场景,因为它们具有强大的辨别能力和背景特征消除技术另一方面,基于CNN Transformer的跟踪器:CSWinTT[56]和AiATrack[57]在快速运动(FM)、照明变化(IV)和纵横比变化(ARC)场景中显著优于完全基于Transformer的追踪器。

基于实验分析,全遮挡(FOC)和低分辨率(LR)是UAV123数据集中最具挑战性的属性,因为所有跟踪器都在努力捕捉空中跟踪视频中这些场景中的强烈外观线索。总之,对UAV123数据集上最先进的跟踪器的评估表明,它们的性能仅为一般水平。这一发现凸显了进一步研究和创新的必要性,以提高空中跟踪系统的准确性和可靠性。

LaSOT数据集的分析

对LaSOT数据集的实验分析对于确定VOT的未来方向非常重要,因为它具有几个具有挑战性的场景的长期跟踪序列。论文使用了LaSOT数据集的社会工具包来衡量这些方法的跟踪性能。实验结果入图19所示:

目标跟踪~_数据集_18

总体而言,完全基于Transformer的跟踪器显示出优异的性能,而基于CNN-Transformer的追踪器在LaSOT基准测试中显示出可观的性能。另一方面,基于CNN的方法在LaSOT数据集中的整体跟踪和属性方面的性能非常有限,因为它们无法包括时间线索并在搜索区域中提取目标特定特征。基于属性成功率,快速运动和完全遮挡对于最先进的跟踪器来说是最具挑战性的

TrackingNet数据集的分析

TrackingNet数据集有超过30k个训练和511个测试视频序列,分别有1400万和225个注释。由于TrackingNet数据集包含分辨率、目标对象类和帧速率等多种多样的视频,因此评估该数据集的跟踪性能对于许多现实应用程序来说非常重要。与LaSOT数据集类似,论文使用成功率、精度分数和标准化精度对TrackingNet数据集中的跟踪器进行排名。由于测试集注释不可公开使用,因此无法在此数据集中进行属性比较。

与其他基准数据集类似,ProContEXT[64]跟踪器在TrackingNet数据集中表现出优异的性能,成功率为84.6%,标准化精度为89.2%,精度得分为83.8%。此外,其他基于单流一阶段的全Transformer跟踪器:OSTrack[63]和MixFormer[61]方法也显示出具有竞争力的跟踪性能。双流两阶段跟踪器:Swin-Track[59]显示出第三高的成功率和精度分数。

跟踪效率分析

分析跟踪效率与分析跟踪性能一样重要,因为它对许多实际和现实应用程序至关重要。在这一效率分析比较中,论文包括了所有最近的跟踪器,除了一些方法,因为它们的源代码和跟踪模型不公开。为了进行无偏比较,每个跟踪器的效率结果是通过在具有NVIDIA Quadro P4000 GPU和64GB RAM的计算机上执行源代码获得的。本文没有改变这些方法的跟踪模型的参数,并通过在LaSOT基准数据集上评估跟踪器获得了效率结果。

论文评估了跟踪器在其跟踪模型中的跟踪速度、参数数量和浮点运算(FLOP)数量方面的效率。跟踪速度对于许多实际应用来说都很重要,因此将其视为效率比较的重要指标。它是通过计算一种方法每秒处理的平均帧数来计算的。由于报告的方法跟踪速度取决于硬件和实现平台,论文使用PyTorch深度学习框架计算了同一硬件平台上跟踪器的跟踪速度。参数数量是基于深度学习的跟踪方法中的另一个效率指标,因为参数数量较少的模型在硬件方面效率高,占用较少的RAM空间,因此可以在移动设备和平板电脑等小型设备中工作。跟踪方法的参数数是传递给优化器的参数总数,在大多数情况下,它不依赖于跟踪方法的输入大小。论文使用pyTorch默认函数来测量跟踪模型的参数总数。

论文已经将浮点运算(FLOP)的数量作为衡量跟踪模型效率的第三个指标。除了完全基于Transformer的跟踪器之外,方法的FLOP数量取决于跟踪模型和相应的搜索图像大小,因为目标模板特征仅在跟踪序列的第一帧中计算。在完全基于Transformer的跟踪器中,在每个帧中计算目标模板的特征,因此模板的大小影响FLOP。尽管一些跟踪器的FLOP数量很高,但它们仍然能够高速跟踪目标,因为它们的模型高度并行,现在GPU可以成功地处理它们。然而,这些方法不适用于仅在CPU和移动设备上运行的某些应用程序。表6中报告了跟踪器的总体效率结果,以及它们在LaSOT基准上的相应搜索图像大小和成功分数。

目标跟踪~_特征提取_19

根据表6中获得的效率结果,基于CNN的跟踪器显示出比其他两种类型的跟踪器更好的性能。特别是,SiamDW[88]跟踪器通过使用基于CNN主干的残差单元内的轻加权裁剪,以52.58 FPS的跟踪速度和246万个参数获得了最高效率的结果。SiamGAT[33]跟踪器实现了41.99 FPS的跟踪速度。其跟踪模型具有1423万个参数和14.23 gigaFLOPs,搜索图像大小为287x287。尽管最近大多数基于CNN的跟踪器在计算上都很高效,但SiamRPN+[29]跟踪器由于使用了更深的CNN主干架构进行特征提取,因此以5.17 FPS的跟踪速度获得了较差的效率结果。SiamRN[34]方法在基于CNN的跟踪器中也显示出第二低的效率结果,由于其计算昂贵的关系检测器模块,其平均跟踪速度为6.51 FPS和116.87 gigaFLOPs。

总体而言,大多数基于CNN-transformer的跟踪器成功地平衡了跟踪鲁棒性和计算效率。特别是,基于CNN-transformer的跟踪器的FLOP数量大大低于其他两类,因为它们成功地从基于CNN的功能中捕捉到了强大的线索,即使使用了轻量级骨干网络。特别是,AiATrack[57]跟踪器实现了31.22 FPS的平均跟踪速度和1795万个参数,同时在LaSOT数据集上保持了69%的成功分数。尽管AiATrack方法在大搜索区域中搜索目标,但它只有9.45 gigaFLOPs,因为它的模型更新机制使用了特征重用技术,以避免额外的计算成本。在基于CNN Transformer的跟踪器中,HiFT[51]方法以37.06 FPS的跟踪速度和1107万个参数获得了最高的效率,同时显示了相当高的跟踪精度。由于HiFT跟踪器使用了轻量级AlexNet[20]作为主干特征提取网络,它以较少的FLOPs实现了最高效率的结果。基于其平均跟踪速度,CSWinTT[56]跟踪器以8.76 FPS的速度显示出较差的结果,因为这种方法的循环转移注意力机制在计算上很昂贵。

总之,基于CNN的跟踪器在跟踪速度、参数数量和浮点运算数量方面取得了更好的结果。然而,它们的跟踪鲁棒性比其他两类更差。另一方面,尽管完全基于Transformer的跟踪器显示出出色的跟踪鲁棒性,但它们的效率低于其他两种类型。基于CNNTransformer的跟踪器通过结合基于CNN的特征提取和基于Transformer的特征融合,成功地平衡了跟踪的鲁棒性和效率。

讨 论 

调查结果汇总

这项调查研究的重点是分析在其跟踪模型架构中使用Transformer的视觉目标跟踪器的子集的文献和性能。虽然Transformer最初是在NLP任务中引入的,但由于它们的注意力机制,它们在各种计算机视觉任务中表现出了优异的性能。Transformer在过去三年中被用于视觉目标跟踪方法,并由于其全局特征学习能力而表现出优异的性能改进。论文 介绍了不同类型的基于Transformer的跟踪器,并根据它们如何应对跟踪挑战分析了它们的单独性能。此外将Transformer跟踪器的性能与最先进的基于CNN的跟踪器进行了比较,以表明它们如何在短时间内以较大的优势克服现有方法。

论文调查了在其模型架构中使用Transformer的所有最先进跟踪器的文献。在OTB100、UAV123、LaSOT、TrackingNet和GOT-10K基准数据集上评估了这些跟踪器的性能,以分别分析它们的通用跟踪、空中跟踪、长期跟踪、真实世界跟踪和一次性跟踪能力。实验结果表明,OTB100数据集对最近的跟踪器不再具有挑战性,因为它们显示了饱和的整体性能和属性结果。

在Transformer引入目标跟踪之前,基于CNN的跟踪器主导了跟踪世界。特别是,基于Siamese的方法在基准数据集的跟踪鲁棒性和效率之间取得了相当大的平衡。然而,由于基于CNN的孪生跟踪方法主要依赖于相关运算,这是一个局部线性匹配过程,因此它们在具有挑战性的跟踪场景中的性能受到限制。此外,根据论文在大规模LaSOT基准中的实验分析结果,基于CNN的跟踪器的长期跟踪能力非常有限,因为它们基于相关性的特征匹配过程无法处理长跟踪序列中的目标外观变化此外,基于属性的实验结果表明,基于CNN的跟踪器由于其较差的目标辨别和特征匹配能力,仍然难以在完全遮挡、旋转、视点改变和尺度变化的场景中跟踪目标。尽管所有基于CNN的跟踪器在具有挑战性的基准数据集中表现出较差的跟踪鲁棒性,但它们显示出优异的效率结果,因此仍然适用于许多现实世界应用。

Transformer最初作为CNN主干网络的迭代模块引入到单目标跟踪中,在本研究中,这些类型的方法被称为基于CNN-Transformer的跟踪器。研究人员用基于CNN Transformer的跟踪器中的Transformer架构取代了孪生跟踪方法的相关操作。基于这项研究的结果,基于CNN Transformer的跟踪器成功地平衡了基准数据集中的跟踪鲁棒性和效率。尽管它们在短期和空中跟踪序列中的跟踪鲁棒性很好,但它们的长期跟踪能力远低于完全基于Transformer的方法。与基于CNN的跟踪器相比,基于CNN-Transformer的方法成功地利用了主干CNN架构进行特征提取,即使使用较小的预训练CNN模型,它们也显示出优异的性能。然而,根据我们的属性实验分析,基于CNN Transformer的跟踪器在全遮挡、低分辨率、视野外和照明变化跟踪场景中表现出有限的性能,因为它们仍然依赖于不知道目标的CNN特征。

最近的VOT方法完全依赖于Transformer架构,在目标跟踪中利用其全局特征学习能力。基于它们的模型架构,论文将全Transformer方法的文献分类为两流两阶段跟踪器和一流一阶段跟踪器。双流两阶段跟踪器分别使用两个相同的Transformer网络分支和另一个Transformer网络,在两个可区分的阶段中执行特征提取和融合。另一方面,单流单阶段跟踪器使用变压器网络的单个管道。基于UAV123、LaSOT、TrackingNet和GOT-10K基准数据集的实验结果,完全基于Transformer的跟踪器在保持可接受的效率分数的同时,以较大的优势显著优于其他方法。特别是,通过提取搜索图像中的目标感知特征并消除不必要的背景特征,单流单级跟踪器在基准数据集中显示出出色的整体跟踪鲁棒性和属性智能性能。完全基于Transformer的跟踪器成功地处理了长期跟踪场景,即使目标经历了严重的外观变化和完全遮挡,因为它们的Transformer架构能够更新目标的空间和时间线索。

根据从论文的实验研究中获得的评估结果,很明显,单流单阶段全Transformer跟踪器在所有方面都是最先进的跟踪器,包括单次跟踪。他们很可能在未来几年主导VOT。

Transformer跟踪的未来方向

尽管Transformer跟踪器在具有挑战性的基准数据集方面显示出比其他方法显著的改进,但仍有几个问题尚未解决,需要在未来的工作中进一步关注。鉴于这种背景,我们为Transformer跟踪的未来方向提供了一些建议。

同时增强单阶段、单流完全基于Transformer的跟踪器的鲁棒性和效率:跟踪社区已开始采用具有单阶段、单流架构的完全基于Transform的方法,以同时增强跟踪鲁棒性和有效性。这些方法使用统一的特征提取和目标建模过程,利用双向信息流,提高跟踪器的辨别能力。尽管迄今为止提出的方法不到五种,但它们在跟踪鲁棒性方面都取得了最好的结果。然而,由于目标模板图像是在跟踪序列的每一帧中处理的,并且使用了大量的参数,因此它们的计算效率很低。为了解决这个问题,可以采用有效的特征重用机制来降低模型的计算复杂性。此外,将空间和时间信息纳入统一的特征提取和目标建模过程可以进一步提高跟踪精度。

丰富完全Transformer跟踪器的准确性,以跟踪具有较少外观线索的小目标:UAV123数据集上的实验结果表明,基于完全Transformer的方法难以在具有有限外观线索的情况下跟踪小目标对象,因为其他类型的跟踪器在属性比较方面优于它们。特别是,当在快速运动、照明变化和相机运动场景中跟踪小目标对象时,它们的成功分数很低。由于Transformer的像素级注意力机制无法捕捉小目标对象的正确外观线索,因此完全基于Transformer的跟踪器表现出有限的性能。类似于CSWinTT跟踪器[56],结合窗口级别和目标大小感知注意机制可以提高全Transformer跟踪器在跟踪小目标对象时的准确性。

通过提供时间和空间线索来提高Transformer跟踪的鲁棒性:通过结合时间和空间提示来处理具有变形、旋转和缩放变化的场景,可以增强跟踪器的鲁棒性。这可以通过在整个跟踪过程中更新模板来实现。虽然在基于CNN的跟踪中更新模板是困难的,并且计算成本很高,但完全基于Transformer的跟踪器使用不同的嵌入方案可以轻松地处理模板,而无需额外的成本。因此,与ProContEXT[64]和OSTrack[63]方法类似,维护一组静态和动态模板并将其输入目标模型可以提高其跟踪鲁棒性。

快速运动、完全遮挡和背景杂波是Transformer跟踪的主要挑战:根据论文对各种基准数据集的评估结果,发现快速运动、严重遮挡和背景杂乱是最先进跟踪器的主要挑战。尽管完全基于Transformer的方法在这些场景中显示出了相当大的改进,但对具有挑战性的LaSOT数据集的评估表明,它们在快速运动、完全遮挡和背景杂波帧中的成功分数较低,表现最好的跟踪器分别仅达到59.1%、63.1%和64.4%。为了应对这些挑战,可以采取几种方法。例如,使用干扰物感知机制扩大搜索区域可以处理快速移动的目标,同时减少干扰物目标的影响。此外,在遮挡场景中包含目标重新检测方案可以提高跟踪鲁棒性,增强跟踪器的辨别能力可以处理背景杂波情况。

利用轻量级Transformer架构来提高计算效率:尽管完全基于Transformer的跟踪器显示出出色的跟踪鲁棒性,但其计算科学性非常差,因此不适合许多实际应用。最近,提出了许多轻量级Transformer架构[102103],并在保持准确性的同时显示出优异的效率分数。在VOT中使用轻量级变压器可以提高计算成本。

结 论 

在本研究中,论文对Transformer跟踪方法进行了调查。分析了有关Transformer跟踪器的文献,并将其分为三种类型:CNN-Transformer跟踪器、单阶段单流完全基于Transformer的跟踪器和双流两阶段完全基于Transform的跟踪器。在本文中介绍了19个Transformer跟踪器的文献,基于它们如何应对不同的跟踪挑战。

在本研究的第二阶段,论文通过实验评估了Transformer跟踪方法的跟踪鲁棒性和计算效率,并将其性能与基于CNN的跟踪器进行了比较。总共在实验中评估了31个跟踪器。在具有挑战性的基准数据集上的实验结果表明,单阶段、单流完全基于Transformer的跟踪器是最先进的方法。此外,论文发现基于CNN-Transformer的跟踪器成功地保持了鲁棒性和效率之间的平衡。最后,我们为Transformer跟踪提供了未来的方向。