Siamese Transformer Pyramid Networks for Real-Time UAV Tracking(论文翻译)

论文地址:https://arxiv.org/pdf/2110.08822.pdf

Code:https://github.com/RISC-NYUAD/SiamTPNTracker

目录

摘要

1.引言

2.相关工作

2.1 轻量级网络

2.2 目标跟踪

3.提出的方法

 3.1 特征提取网络

 3.2 特征融合网络

 3.3 Transformer金字塔网络

3.4 预测头

4.实验研究

4.1 实施细节

4.2 消融实验

 4.3 与最先进的跟踪器的比较

 4.4 真实世界实验测试

 5.结论


摘要

       最近的目标跟踪方法依赖于深度网络或复杂的体系结构。这些跟踪器中的大多数都很难在计算资源有限的移动平台上满足实时处理要求。在这项工作中,我们介绍了Siamese Transformer金字塔网络(SiamTPN),它继承了CNN和Transformer架构的优点。具体地说,我们利用了轻量级网络(ShuffleNetV2)的固有特征金字塔,并使用Transformer对其进行强化,以构建一个鲁棒的特定于目标的外观模型。提出了一种具有横向交叉关注的集中式体系结构,用于构建增强的高级特征图。为了避免金字塔表示与Transformer融合时的计算和存储强度,我们进一步引入了集中注意力模块,大大降低了内存和时间复杂度,同时提高了鲁棒性。在航空和流行跟踪基准上的综合实验在高速运行的同时获得了有竞争力的结果,证明了SiamTPN的有效性。此外,我们最快的变体跟踪器在单CPU核心上运行超过30 Hz,在LaSOT数据集上获得58.1%的AUC分数。源代码可在https://github.com/RISCNYUAD/SiamTPNTracker上获得 

1.引言

        无人机(UAV)跟踪近年来受到越来越多的关注,因为它在路径规划[25]、视觉监视[43]和边境安全[44]等不同领域具有巨大的潜力。虽然功能强大的视觉目标跟踪方法已经取得了广泛的进展,但实时跟踪的问题却被忽视了。此外,低性能紧凑设备上固有的有限电源资源进一步限制了无人机跟踪的发展。

        随着移动设备软硬件的优化和轻量级但功能强大的骨干网[24,36,41]的发展,在CPU端实现了基于视觉分类、目标检测、实例分割的实时应用。然而,为计算资源有限的无人机(如单CPU核心)设计一个高效的对象跟踪器仍然具有挑战性。轻量级主干不足以提取鲁棒的区分特征,这对跟踪性能至关重要,特别是在不确定场景下。因此,以前的追踪者试图通过采用更深层次的网络[26]、设计复杂的结构[50]或者牺牲推理速度的在线更新器[2]来解决这个问题。

        在这项工作中,我们缓解了上述问题,适应轻量级主干,构建基于CPU的实时跟踪器。首先,为了补充轻量级骨干网的代表能力,我们将特征金字塔网络(FPN)[30]集成到跟踪流水线中。虽然现有的跟踪器[7,15,27]也采用了多尺度功能,但它们大多采用简单的组合或针对不同的任务使用功能。我们声称这从根本上是有限的,因为判别性表示需要组合来自多个尺度的上下文。尽管FPN从低层/高层语义对金字塔信息进行编码,但它只利用来自局部邻域的上下文,而不是显式地对全局交互进行建模。FPN的感知受感受场的限制,而感受场仅限于较浅的网络。受Transformer[5]的发展及其建模全局依赖关系的能力的启发,最近的著作[13,49]引入了基于注意力的模块,并取得了深刻的成果。然而,这些模型的复杂性可能会导致不适合金字塔体系结构的计算/存储开销。相反,我们设计了一个轻量级的Transformer attention层,并将其嵌入到金字塔网络中。所提出的Siamese Transformer金字塔网络(命名为SiamTPN)通过金字塔特征之间的横向交叉关注来增强目标特征,产生鲁棒的特定于目标的外观表示。图2说明了我们的跟踪器与现有跟踪器之间的主要区别。此外,我们的跟踪器基于轻量级骨干网,在GPU和CPU端都能实时运行,达到了最先进的效果,如图1所示。

我们的主要贡献总结如下:

1.针对计算资源有限的系统,我们提出了一种新的基于Transformer的跟踪框架。这些系统在仅支持CPU的无人机中通常会遇到。据我们所知,这是第一个基于深度学习的视觉跟踪器,在使用CPU的无人机上以实时速度运行。

2.我们提出了一个轻量级的Transformer层,并将其集成到金字塔网络中,以构建一个高效的框架。

3.在多个基准上的优异性能以及广泛的消融研究证明了所提出的方法的有效性。特别是,我们的方法获得了最先进的结果,在LaSOT[14]上仅使用轻量级主干的AUC得分为58.1,同时在CPU端以超过30 FPS的速度运行。现场测试进一步验证了SiamTPN在实际应用中的有效性。

2.相关工作

2.1 轻量级网络

        针对神经网络在移动平台上运行的需求,提出了一系列轻量级模型[24,36,41]。AlexNet[24]充分利用了卷积运算,并在ImageNet[12]分类任务上取得了深刻的结果。MobileNet[41]家族提出倒置残差块,深度分离卷积以节省运算量。ShuffleNet[36]系列是另一个轻量级深度神经网络系列,它引入了通道混洗操作,并针对目标硬件优化了网络设计。

特征金字塔。特征金字塔(即,自下而上特征金字塔)是现代神经网络设计中最常见的体系结构。CNN 的层次结构在逐渐增加的感受野中对上下文进行编码。特征金字塔网络(FPN)[30]和路径聚合网络(PANET)[32]通常用于跨尺度特征交互和多尺度特征融合。FPN包括自下而上和自上而下的路径,用于将语义信息传播到多级特征中。

2.2 目标跟踪

        判别相关滤波器(DCF)。自从Mosse[3]和KCF[19]以来,DCF在目标跟踪方面已经显示出很有前途的结果。之后,使用多通道特征、颜色名称和多尺度特征[9,39]来提高跟踪的鲁棒性。通过非线性核[10,28]、长期记忆[8]和深层特征[11,17]实现了进一步的改进。[21,29]进一步提高了无人机跟踪的鲁棒性和优化的DCF。

基于深度学习的目标跟踪。流行的基于Siamese网络家族的跟踪器通过相似性学习解决了对象跟踪问题。SiamRPN[27]引入区域建议网络,联合进行分类和回归。DaSiamRPN[51]通过抗干扰感知模块提高了模型的辨别能力,SiamRPN++[26]通过更强大的深层架构进一步提高了性能。最近的研究成果如SiamBAN[6]、SiamFC++[47]和Ocean[50]用无锚点机制取代了RPN,实现了更快的跟踪速度。DIMP[2]和ATOM[7]在线学习判别分类器,以区分目标和背景。这些方法需要大量的计算,不适合基于CPU的跟踪。

Transformer。Transformer在[45]中首次被提出用于机器翻译,并在许多顺序任务中显示出巨大的潜力。DETR5]首次将Transformer移植到目标检测任务中,并取得了显著的效果。最近的工作[13,49]引入了一种注意力机制来提高跟踪性能。在DETR的启发下,[4]利用变频器直接融合不同层次的相关图,对无人机上的目标跟踪取得了显著的精度和速度。在这项工作中,我们没有迁移复杂的Transformer编码器和解码器范例,而是利用Transformer编码器并设计了基于注意力的特征金字塔融合网络来更有效地学习特定于目标的模型

3.提出的方法

        如图2所示,提出的SiamTPN由三个模块组成:一个用于特征提取的Siamese主干网络,一个基于Transformer的特征金字塔网络,以及一个用于按像素分类和回归的预测头。

 3.1 特征提取网络

        与Siamese跟踪框架类似,SiamTPN由两个分支组成:模板分支和搜索分支,模板分支以初始帧中大小为Wz×Hz的裁剪图像z为参考,搜索分支以当前帧中大小为Wx×Hx的裁剪图像x为参考进行跟踪。两个输入由同一骨干网络处理,得到金字塔特征图Pi ∈R Ci×W/R×H/R,其中i∈{3,4,5}是特征提取的级数,R是空间约简比,Ri∈{8,16,32}。

        我们不是直接在特征映射对上执行互相关,而是首先将特征金字塔馈送到TPN(详细信息见第3.3节),由模板分支和搜索分支共享。具体地说,TPN将金字塔特征P3;P4;P5作为输入,并输出与P4大小相同的混合表示,用于相关目的。然后,在来自参考分支和搜索分支的输出之间执行深度相关,如下所示:

 其中Γ是TPN模块,M是多通道相关图,并被用作分类和回归头部的输入。总体架构如图2所示。

 3.2 特征融合网络

多头注意力。Transformer一般有多个编码层,每个编码层由多头注意(MHA)模块和多层感知器(MLP)模块组成。注意函数对查询Q、键K、值V采用比例点生成的方式进行运算,可表示为:

 其中C是归一化注意力的关键维度,Pos是添加到每个关注层的输入的位置编码。Transformer架构中的位置嵌入是一个位置相关的可训练参数向量,在将令牌嵌入输入到Transformer块之前将其添加到令牌嵌入中。通过将注意机制扩展为多个头部的方式,增强了模型的表征能力,其公式如下:

 其中W_{i}^{Q}\epsilon R^{C\times d_{head} }W_{i}^{K}\epsilon R^{C\times d_{head} }W_{i}^{V}\epsilon R^{C\times d_{head} },并且W^{O^{i}}\epsilon R^{C\times C }是线性投影的参数,Concat是指拼接操作,N是关注头的个数,d_{head}是每个头的维度等于\frac{C}{N}

Pool Attention。MHA使模型对信息的不同方面赋予了重要性,并学习了健壮的表示。然而,复杂度随着输入大小的增加而增加。MHA的计算成本为:

 其中n_{q}=h_{q} w_{q}n_{kv}=h_{kv} w_{kv},w, h是输入特征图的分辨率。降低计算代价的方法有三种:(1)减小查询大小,(2)降低C的维数,(3)减小键和值的大小。但是,减小查询大小也会减少预测头的点数,这最终会影响跟踪精度。随着特征维数的降低,同样的情况也会发生。由于在TPN中采用可变分辨率的特征地图作为融合的关键字和值,我们提出了pool attention(RA)层来降低K和V的空间尺度。具体地说,K和V被馈送到具有R的集合大小和步长大小的集合图层中。

        为了进一步降低注意模块的计算开销,我们去掉了原始MHA中的位置编码,原因如下:(1)输入令牌的排列受最终互相关的限制。(2)访问和存储每个特征图的位置嵌入需要额外的资源,这不适合移动设备。总体而言,PA块(PAB)的机制可概括为:

 其中,MLP是完全连接的前馈网络,而Norm是平滑输入特征的LayerNorm。MHA和PA模块的结构比较如图3所示。

 3.3 Transformer金字塔网络

         为了利用同时具有低级信息和高级语义的金字塔特征层次Pi, i∈{3, 4, 5},提出了一种Transformer金字塔网络(TPN)来构建具有高级语义的混合特征。TPN由堆叠的TPN块组成,其采用金字塔特征{P3, P4, P5}并输出新的融合特征\left \{P _{3}^{'}, P _{4}^{'},P _{5}^{'} \right \},如图4所示。金字塔特征被送入1×1卷积层进行降维,在TPN中处理之前经过展平操作。我们固定特征维度(通道数),在所有特征地图中表示为C。

         金字塔的构建包括自下而上路径和集中路径。自下而上路径是来自主干架构的前馈卷积,并产生特征层次{P3, P4, P5}。然后,集中式路径将特征层次合并为统一的特征。具体地说,我们使用P4作为所有特征层次的查询,产生3个具有不同池化比例的组合,这些组合由3个并行PAB块处理。输出被直接相加并馈送到两个自我注意的PAB块中,以获得最终的语义特征。整个过程可以用以下公式表示:

 P3和P5被设置为标识1,以避免计算/内存开销。此外,PA模块设计可以有效地提高层次特征之间的相关性。TPN块重复B次,并产生用于互相关和最终预测的最终表示。简单性是我们设计的核心,我们发现我们的模型对各种设计选择都是鲁棒的。

3.4 预测头

        融合特征P_{4}^{x}P_{4}^{z}在送入预测头之前被重塑回原始大小。在[26]之后,在搜索图和模板核之间执行深度互相关,以得到多通道相关图。相关图被馈送到两个独立的分支中。每个分支由3个堆叠的卷积块组成,以生成最终输出A_{w\times h\times 2}^{cls}以及A_{w\times h\times 2}^{reg}A_{w\times h\times 2}^{cls}表示特征图上每个点的前景和背景分数,A_{w\times h\times 2}^{reg}预测从每个特征点到边界框四条边的距离。总体而言,目标函数是

 其中Lcls是分类的交叉熵损失,Liou是预测盒和地面真实盒之间的GIOU[40]损失,Lreg是回归的L1损失。常量\lambda _{cls}\lambda _{reg}\lambda _{iou}会加重损失。

4.实验研究

        本节首先介绍SiamTPN跟踪器的实现细节和不同变体之间的比较,以及相关可视化结果。在此基础上,进行了消融实验,分析了关键部件对消融效果的影响。我们进一步将我们的方法与最先进的方法在空中基准和流行基准上进行了比较。最后,我们在无人机平台上部署了跟踪器,以测试其在实际应用中的有效性。

4.1 实施细节

        模型。我们将我们的SiamTPN应用于三个具有代表性的轻量级骨干网,即AlexNet[24]、MobileNetV2[41]、ShuffleNetV2[36]。使用这些网络作为主干,使我们能够充分比较所提出的方法的有效性。所有主干都在Imagenet上接受过预先培训。不同骨干网的网配置细节如表1所示。对于ShuffleNet和MibileNet,我们提取出空间比的级数分别为1/8;1/61;1/32。对于AlexNet,最后三层用于构建特征金字塔。

         训练。与Siamese方法一样,该网络也是通过图像对进行离线训练的。训练数据由来自LaSOT[14]、GOT10K[20]、COCO[31]和TrackingNet[38]数据集的训练拆分组成。从最大间隔为100帧的视频中采样图像对。搜索图像和模板的大小分别为256×256像素和80×80像素,对应于目标方框面积的4^{2}倍和1.5^{2}倍,生成特征金字塔\left \{ h_{3}^{x}= h_{3}^{x}=32, h_{4}^{x}=h_{4}^{x}=16, h_{5}^{x}=h_{5}^{x}=8\right \}以及\left \{ h_{3}^{z}= h_{3}^{z}=10, h_{4}^{z}=h_{4}^{z}=5, h_{5}^{z}=h_{5}^{z}=3 \right \}。尽管较低的输入分辨率会带来额外的速度提升,但这并不是本文的重点,因此我们为后面的所有实验设置了上述大小。测试图像在位置和尺度上增加了一些扰动。

         对于所有主干,在训练期间冻结第一层和所有BatchNorm层。所有实验训练100个epoch,每批64个图像对。我们使用ADAMW[33]优化器,主干的初始学习率为10^{-5},其余部分的初始学习率为10^{-4}。在90个epoch上,学习率下降了0.1倍,损失项分别是λcls=5,λiou=5,λreg=2的权值。在跟踪期间,在从分类图中选择最佳预测点A_{w\times h\times 2}^{cls}之前,执行尺度惩罚和汉宁窗口[18]。最终边界框是通过将在A_{w\times h\times 2}^{reg}中预测的偏移量与最佳预测点的坐标相加来给出的。

4.2 消融实验

        在这一部分中,我们从骨干网的选择、与原Transformer和卷积的比较、TPN超参数的影响以及注意力可视化等方面验证了所提出的跟踪器的有效性。我们遵循一次通过评估(成功和精度)来比较LaSOT[14]测试集上的不同跟踪配置,并报告成功(AUC)分数。LaSOT[14]是一个大规模的长期跟踪基准,包含280个用于测试的视频。

 主干。主干网对推理的速度和准确性起着决定性的影响。现代体系结构利用剩余跳跃连接、分组/深度卷积来设计合适的网络,以学习更具代表性的特征,并具有更高的推理速度。我们首先比较了使用不同主干的性能。与SiamFC[1]类似,我们去掉了所有的特征融合模块,并直接从P4预测结果。我们为所有预测层设置C=192。如表2所示,具有简单主干和预测头的跟踪器在LaSOT上获得了可观的AUC分数,在CPU端具有平均较高的推理速度。具体地说,ShuffleNetV2的AUC得分为34.1,FPS为48.1。一个直截了当的问题是:附加更多的卷积层是否有助于提高跟踪性能?然后,我们在P4之后堆叠额外的卷积层,图5显示了AUC随额外层数的变化。叠加更多的卷积层会低效地提高精度,并且与速度下降相比毫无价值。对于ShufflenetV2,在AUC分数提高15%的情况下,速度下降了30%以上。我们发现AlexNet不适合边缘计算,ShuffleNetV2和MobileNetV2在准确性和速度测试上都有可比性。在接下来的实验中,我们选择ShuffleNetV2作为主干。

 与原始Transformer的比较。为了展示我们提出的TPN模块和PA模块的效果,我们使用原始Transformer设计了一个跟踪器。与堆叠卷积的设置类似,我们在P4后面附加变形器层。如图5所示,在没有融合金字塔特征的情况下,只有一个附加transformer层的跟踪器比具有六个附加卷积层的跟踪器效果更好。此外,该跟踪器具有6个transformer,在LaSOT上的AUC得分为53.5。接下来,我们使用与TPN相同的设置来实现FPN,但使用卷积和内插层替换transformer层。具有两个堆叠的FPN的跟踪器从特征金字塔内部的交互中学习到更全面的表示,获得了47.2的AUC得分,显示了其相对于单层体系结构的优势。然而,缺乏全局依赖关系成为提高准确率的瓶颈。我们进一步将Transformer层集成到TPN块中,而不使用Pooling Attention层。利用金字塔特征聚合的高级语义,该跟踪器在LaSOT上获得了58.7的AUC分数,达到了最先进的性能。然而,我们看到跟踪器的速度降到了20FPS以下,这不适用于实时跟踪的要求。最后,我们用PA层代替transformer层对TPN模型的结果进行了检验。即使查询和键的输入大小随比例R减小,跟踪器仍然实现了最先进的性能。然而,在LaSOT数据集上,在仅损失0.6AUC分数的情况下,速度提高到32.1FPS,证明了该方法在鲁棒性和效率方面的优越性。

TPN超参数的影响。我们讨论了TPN模型的一些结构超参数。首先,我们考察了TPN块数量的影响。在只有一个TPN块的情况下,跟踪器的速度略有提高,但AUC得分从58.1下降到52.8。由于原始transformer对编码器和解码器都使用6层深度,我们认为2个TPN块(深度=6)就足以实现鲁棒的跟踪结果。PA层的头数也是影响跟踪稳定性的重要因素。为简单起见,我们固定头的维度为32,这样我们就可以同时测试输入尺寸C={128, 192, 256}和头数量N={4, 6, 8}。8个头的跟踪器产生了最好的AUC分数,尽管代价是推理时间减少了一半(FPS从32.1降到15.2)。另一方面,只使用4个题型来学习有效的表征是低效的,在LASOT上只给出了46.2分的AUC分数。在实践中,C=192,N=6,B=2在速度和精度之间取得最佳平衡。

Attention可视化。图6中的前三列显示了来自带有或不带有TPN模块的分类头的响应映射。如果没有TPN来学习区分特征,相关结果将变得分散,并且更容易转移到干扰项。最后三列说明了金字塔特征之间的注意图较低级别(P3到P4,P4到P4)之间的注意力在整个搜索区域提取了更多的局部信息,而从较高级别(P5到P4)的注意力更集中在对象目标的语义上。所有关注图都是从包含整个关键点输入的边界框内的中心特征点计算出来的。

 4.3 与最先进的跟踪器的比较

        在本节中,我们将我们的方法与22个SOTA追踪器进行比较。有4种基于锚点的连体方法(SiamRPN[27]、SiamRPN++[26]、DaSiamRPN[51]、HIFT[4])、5种无锚点连体方法(SiamFC[1]、SiamBAN[6]、SiamCar[15]、SiamFC[47]、Ocean[50])、10种基于DCF的方法(ECO[8]、CCOT[11]、KCF[19]、ARCF[21]、BACC。SiamAttn[49])和一种基于分段的方法D3S[34]。

 UAV123[37]。UAV123是最大的无人机跟踪基准之一,采用成功率和精确度标准进行评估。如表3所示,所有在CPU上实现实时速度的跟踪器都是基于DCF的,这依赖于手工功能。这成为了设计高准确率跟踪器的瓶颈。另一方面,依靠Resnet-50等更深层次网络的跟踪器可以实现高性能,但仅适用于GPU设备。相反,我们的SiamTPN在获得SOTA结果的同时,在CPU上以实时速度运行。具体地说,SiamTPN获得了85.8的精度得分和66.04的AUC得分,表现优于最近的Sota Siamese追踪机构SiamAttn。为了进行公平的比较,我们开发了一个基于AlexNet的变体跟踪器。虽然AlexNet在CPU端并不友好,但我们的跟踪器可以在GPU上以超过100 FPS的速度运行,同时与SiamRPN++实现一致的结果。

 VOT2018[23]和OTB[46]。VOT2018数据集由60个具有不同挑战因子的序列组成。在EAO(预期平均重叠)方面对性能进行了比较。OTB包含100个序列,并使用AUC分数来评估性能。表4显示,我们的方法在VOT(第二行)和OTB(第三行)数据集上与SOTA算法取得了类似的结果。

 LaSOT[14]。图7显示了我们的SiamTPN在LaSOT测试集上取得了最好的结果,AUC得分为58.1,击败了所有基于深度Resnet跟踪器(DIMP、ATOM、Ocean)的跟踪器。

 Got10K[20]是另一个大规模数据集,它使用平均重叠(AO)作为度量。根据通用目标跟踪的要求,训练集和测试集之间的目标类别没有重叠,这就更具挑战性,需要一个具有强大泛化能力的跟踪器。我们遵循他们的协议,用训练分部训练网络。如图1所示,与基于Sota Siamese的跟踪器SiamRPN++[26]相比,SiamTPN在AO上的性能相对提高了12%。在另一方面,我们的方法超越所有基于DCF的跟踪器,同时保持CPU上的实时推理速度。

 4.4 真实世界实验测试

        在这一部分中,我们将验证所提出的跟踪器在实际无人机跟踪中的可靠性。硬件设置包括一架多直升机无人机、一台嵌入式PC、一个三轴万向节和一个可视PTZ(摇摄-倾斜-变焦)摄像机。为了验证SiamTPN的跟踪速度、泛化能力和鲁棒性,我们设置了三种不同的跟踪场景。具体来说,实地测试包括:(1)使用地面固定PTZ摄像机进行无人机跟踪,如图8a所示。(2)使用无人机跟踪和跟踪移动的人,并将目标保持在视场内,如图8b所示。(3)使用嵌入PTZ摄像头的另一架无人机(追踪器)跟踪无人机(逃避器),其中两架无人机以自定义轨迹飞行,但PTZ摄像头的参数会根据逃避器的位置进行自适应调整,如图8c所示。无人机的位置是用两个GPS设备记录的,如图8c(I)所示,其中红色(蓝色)点对应于追赶者(逃避者)。图8显示了在复杂环境下获得的精确跟踪结果,显示了Tracker在实际应用中的鲁棒性和实用性。我们也比较了不同包围盒大小下的跟踪速度差异。经验上,我们根据像素数将边界框分为三类,即小(<1600)、中(<10000)和大(>10000)。图8c(Ii)显示了在不同情况下的稳定推理速度。

 5.结论

        在这项工作中,我们提出了一个聚合不同层次语义的转换金字塔网络。从金字塔特征间的交叉注意中提取出局部交互作用和全局依赖关系。为了避免计算开销,进一步引入了集中注意力。综合实验表明,该方法在CPU端以实时速度运行的同时,显著提高了跟踪效果。

  • 4
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值