Siamese Transformer Pyramid Networks for Real-Time UAV Tracking(SiamTPN:用于实时无人机跟踪的孪生Transformer) 翻译

摘要

        最近的目标跟踪方法依赖于深度网络或复杂的架构。大多数跟踪器很难在满足实时处理要求的同时,应用于计算资源有限的移动平台。在本文中,我们介绍了孪生Transformer金字塔网络(SiamTPN),它继承了卷积神经网络(CNN)和Transformer架构的优点。具体来说,我们利用了一个轻量级网络(ShuffleNetV2)固有的特征金字塔,并用Transformer对其进行强化,以构建一个稳健的特定目标外观模型。我们开发了一种具有横向交叉注意力的集中式架构,用于构建增强的高级特征图。为了避免在将金字塔表示与Transformer融合时产生大量的计算和内存负担,我们进一步引入了池化注意力模块,该模块在降低内存和时间复杂度的同时提高了稳健性。在航空和流行的跟踪基准上进行的综合实验取得了具有竞争力的结果,同时实现了高速运行,证明了SiamTPN的有效性。此外,我们的最快变体跟踪器在单个CPU核心上的运行速度超过30Hz,并在LaSOT数据集上获得了58.1%的AUC得分。

源代码:https://github.com/RISCNYUAD/SiamTPNTracker获取。

      1. 简介

        近年来,无人机(UAV)跟踪因其在路径规划[25]、视觉监控[43]和边境安全[44]等多个领域的巨大潜力而受到越来越多的关注。尽管视觉目标跟踪方法已经取得了长足的进步,但实时跟踪问题仍未得到足够重视。此外,性能较低的小型设备上固有的电源资源限制进一步制约了无人机跟踪的发展。

        由于移动设备上软件和硬件的优化,以及轻量级但强大的骨干网络[24, 36, 41]的进步,基于视觉分类、目标检测和实例分割的实时应用已经在CPU端实现。然而,为计算能力有限的无人机(如单核CPU)设计一个高效且有效的目标跟踪器仍然是一个挑战。轻量级骨干网络不足以提取稳健的判别特征,这对于跟踪性能至关重要,尤其是在不确定性场景下。因此,以往的跟踪器试图通过采用更深的网络[26]、设计复杂的结构[50]或在线更新器[2]来解决这个问题,但这些方法都牺牲了推理速度。

图1. CPU质量和速度的比较(深红色)或GPU(蓝色)在Got10K上的跟踪方法测试集。平均重叠率(AO)相对于每秒帧数(FPS)已显示。蓝色区域表示跟踪器以实时速度运行

图2.Object tracking architecture comparison

        在本文中,我们缓解了上述问题,适应了轻量级骨干网络,并构建了一个基于CPU的实时跟踪器。首先,为了补充轻量级骨干网络的表征能力,我们将特征金字塔网络(FPN)[30]集成到跟踪流程中。尽管现有的跟踪器[7, 15, 27]也采用多尺度特征,但其中大多数只是进行简单的组合或使用特征执行不同的任务。我们认为这从根本上来说是受限的,因为区分性表征需要结合来自多个尺度的上下文信息。尽管FPN编码了来自低/高级语义的金字塔信息,但它仅利用局部邻域的上下文,而不是显式建模全局交互。FPN的感知受到感受野的限制,这在较浅的网络上尤为明显。受Transformer[5]的发展及其建模全局依赖关系的能力的启发,最近的工作[13, 49]引入了基于注意力的模块并取得了深刻的结果。然而,这些模型的复杂性可能会导致计算/内存开销,这不适合金字塔架构。相反,我们设计了一个轻量级的Transformer注意力层,并将其嵌入到金字塔网络中。所提出的孪生Transformer金字塔网络(命名为SiamTPN)通过金字塔特征之间的横向交叉注意力来增强目标特征,从而产生稳健的特定目标外观表征。图2说明了我们的跟踪器与现有跟踪器之间的主要差异。此外,我们的跟踪器基于轻量级骨干网络,在GPU和CPU端均以实时速度运行,并取得了最先进的结果,如图1所示。我们的主要贡献总结如下:

  1. 我们为计算能力有限的系统引入了一种基于Transformer的跟踪框架。这类系统通常在只有CPU支持的无人机中遇到。据我们所知,这是第一个在无人机上使用CPU以实时速度运行的基于深度学习的视觉跟踪器。

  2. 我们提出了一种轻量级的Transformer层,并将其集成到金字塔网络中,以构建一个高效且有效的框架。

  3. 在多个基准测试上的卓越性能以及广泛的消融研究证明了所提出方法的有效性。特别是,我们的方法在仅使用轻量级骨干网络的情况下,在LaSOT[14]上取得了最先进的结果和58.1的AUC分数,同时在CPU端以超过30 FPS的速度运行。现场测试进一步验证了SiamTPN在实际应用中的效率

2. 相关工作

2.1 轻量级网络

随着在移动平台上运行神经网络的需求增加,一系列轻量级模型被提出[24, 36, 41]。AlexNet[24]利用全卷积操作,在ImageNet[12]分类任务上取得了显著成果。MobileNet[41]系列提出了倒置残差块和深度可分离卷积来节省计算成本。ShuffleNet[36]系列是另一种轻量级深度神经网络,它引入了通道混洗操作,并针对目标硬件优化了网络设计。

特征金字塔网络 特征金字塔(即自下而上的特征金字塔)是现代神经网络设计中最常见的架构。卷积神经网络(CNN)的层次结构在逐渐增大的感受野中编码上下文信息。特征金字塔网络(FPN)[30]和路径聚合网络(PANet)[32]常用于跨尺度特征交互和多尺度特征融合。FPN包括一个自下而上的路径和一个自上而下的路径,以将语义信息传播到多级特征中。

2.2 目标跟踪

        判别式相关滤波器(DCF)。自MOSSE[3]和KCF[19]以来,DCF在目标跟踪方面取得了可喜的成果。之后,多通道特征、颜色名称和多尺度特征被用于提高跟踪的鲁棒性[9, 39]。通过非线性核[10, 28]、长期记忆[8]和深度特征[11, 17]进一步实现了改进。[21, 29]进一步提高了无人机跟踪的鲁棒性,并优化了DCF。

        基于深度学习的目标跟踪 流行的孪生网络系列跟踪器通过相似性学习来解决目标跟踪问题。SiamRPN[27]引入了区域提议网络来联合执行分类和回归。DaSiamRPN[51]通过干扰物感知模块提高了模型的判别能力,而SiamRPN++[26]则通过更强大的深度架构进一步提高了性能。最近的工作,如SiamBAN[6]、SiamFC++[47]和Ocean[50],用无锚点机制替换了RPN,实现了更快的跟踪速度。DiMP[2]和ATOM[7]在线学习一个判别式分类器来区分目标和背景。这些方法需要大量的计算,不适合基于CPU的跟踪。

Transformer。Transformer最初是为机器翻译而提出的[45],并在许多序列任务中显示出巨大潜力。DETR[5]首次将Transformer迁移到目标检测任务中,并取得了显著成果。最近的工作[13, 49]引入了注意力机制来提高跟踪性能。受DETR的启发,[4]利用Transformer直接融合不同级别的相关图,在无人机目标跟踪上获得了显著的准确性和速度。与迁移复杂的Transformer编码器和解码器范式不同,在本工作中,我们利用Transformer编码器设计了一个基于注意力的特征金字塔融合网络,以更有效地学习目标特定模型

 3. 提出的方法

如图2所示,提出的SiamTPN由三个模块组成:一个用于特征提取的孪生骨干网络、一个基于Transformer的特征金字塔网络和一个用于每个像素分类和回归的预测头。

3.1. 特征提取网络

与孪生跟踪框架类似,提出的SiamTPN由两个分支组成:模板分支和搜索分支。模板分支以初始帧中裁剪出的尺寸为Wz × Hz的图像z作为参考,而搜索分支则以当前帧中裁剪出的尺寸为Wx × Hx的图像x进行跟踪。这两个输入由相同的骨干网络处理,得到金字塔特征图Pi ∈ RCi× WR × HR,其中i ∈ {3, 4, 5}是特征提取的阶段编号,R是空间缩减比例,Ri ∈ {8, 16, 32}。

我们不是直接在特征图对上进行交叉相关操作,而是首先将特征金字塔输入到TPN(详见3.3节),该TPN在模板分支和搜索分支之间共享。具体来说,TPN以金字塔特征P3、P4、P5作为输入,并输出与P4相同大小的混合表示,用于相关目的。然后,在参考分支和搜索分支的输出之间执行深度相关操作,如下所示:

其中,Γ是TPN模块,M是一个多通道相关图,并被用作分类和回归头的输入。整体架构如图2所示。

3.2. 特征融合网络

多头注意力。通常,Transformer有几个编码器层,每个编码器层由多头注意力(MHA)模块和一个多层感知机(MLP)模块组成。注意力函数以查询Q、键K和值V为操作对象,采用缩放点积的方式进行计算,可以表示为:

其中,C是关键维度,用于对注意力进行归一化,而Pos是位置编码,它被添加到每个注意力层的输入中。在Transformer架构中,位置嵌入是一个与位置相关的可训练参数向量,它在将标记嵌入输入到Transformer块之前被添加到标记嵌入中。当将注意力机制扩展到多头方式时,模型的表示能力得到了增强,这可以表述如下:

其中,

是线性投影的参数,Concat表示拼接操作,N是注意力头的数量,d_head是每个头的维度,等于C/N。

池化注意力。多头注意力(MHA)使模型能够为信息的不同方面分配重要性,并学习到一个稳健的表示。然而,随着输入大小的增加,复杂度也会增加。多头注意力的计算成本为:

其中是输入特征图的分辨率。存在三种降低计算成本的方法:(1)减少查询的大小,(2)减少C的维度,或(3)减少键和值的大小。然而,减少查询的大小也会减少预测头部的点数,这最终会影响跟踪精度。减少特征维度也会出现同样的情况。由于不同分辨率的特征图被用作TPN中融合的键和值,我们提出了一个池化注意力(RA)层来降低K和V的空间尺度。具体来说,将K和V输入到一个池化层,其池化和步长大小均为R。
为了进一步降低注意力模块的计算成本,我们移除了原始多头注意力(MHA)中的位置编码,原因如下:(1)输入标记的排列受到最终交叉相关的约束。(2)为每个特征图访问和存储位置嵌入需要额外的资源,这不适合移动设备。总的来说,池化注意力块(PAB)的机制可以概括为:

其中,MLP是一个全连接的前馈网络,Norm是LayerNorm,用于平滑输入特征。多头注意力(MHA)和池化注意力(PA)模块之间的结构比较如图3所示。

3.3. Transformer金字塔网络

为了利用金字塔特征层次Pi;i属于{3, 4, 5},它同时包含低级信息和高级语义,我们提出了Transformer金字塔网络(TPN)来构建具有高级语义的融合特征。TPN由堆叠的TPN块组成,它接收金字塔特征{P3、P4、P5}并输出新的融合特征{P30、P40、P50},如图4所示。金字塔特征在输入TPN处理之前,先经过一个1×1的卷积层进行降维,然后进行扁平化操作。我们固定了所有特征图中的特征维度(通道数),用C表示。

图4: Transformer Pyramid Network (TPN).
 

金字塔特征的构建涉及一个自下而上的路径和一个集中化路径。自下而上的路径是从主干架构进行的前馈卷积,并生成特征层次{P3、P4、P5}。然后,集中化路径将特征层次合并为一个统一的特征。具体来说,我们使用P4作为所有特征层次的查询,产生3种不同池化尺度的组合,这些组合由三个并行的池化注意力块(PAB)处理。输出直接相加并输入到两个自注意力PAB块中,以获得最终的语义特征。整个处理过程可以表述为:

P3和P5被设置为恒等(identity)以避免计算/内存开销。此外,池化注意力块(PA)的设计保证了层次特征之间的相互依赖性可以被有效地提取。TPN块重复B次,并生成用于交叉相关和最终预测的最终表示。简洁性是我们设计的核心,我们发现我们的模型对各种设计选择都具有鲁棒性。

3.4. 预测头

融合特征Px4和P4z在输入预测头之前被重塑回原始大小。遵循[26]的方法,在搜索图和模板核之间进行深度交叉相关计算,得到一个多通道相关图。这些相关图被输入到两个单独的分支中。每个分支由3个堆叠的卷积块组成,以生成最终输出表示特征图上每个点的前景和背景得分,而预测每个特征点到边界框四边的距离。总体来说,公式如下:

其中,Lcls是分类的交叉熵损失,Liou是预测框与真实框之间的GIOU[40]损失,Lreg是回归的L1损失。常数λcls、λreg和λiou用于权衡这些损失。

4. 实验研究

        本节首先介绍了实现细节以及SiamTPN跟踪器不同变体之间的比较,包括交叉相关可视化结果。然后,通过消融研究分析了关键组件的影响。我们进一步在航空和流行的基准测试上将我们的方法与最先进的方法进行了比较。最后,我们在无人机平台上部署了我们的跟踪器,以测试其在现实世界应用中的有效性。

4.1 实现细节

        模型:我们将SiamTPN应用于三个具有代表性的轻量级骨干网络,即AlexNet[24]、MobileNetV2[41]和ShuffleNetV2[36]。使用这些网络作为骨干网络使我们能够充分比较所提出方法的有效性。所有骨干网络都在ImageNet上进行了预训练。不同骨干网络的配置细节如表1所示。对于ShuffleNet和MobileNet,我们提取的空间比率阶段分别为1/8、1/16和1/32。

表1. Backbone configurations.

对于AlexNet,与孪生网络方法类似,最后三个训练阶段采用离线方式,使用图像对进行训练。训练数据包括LaSOT[14]、GOT10K[20]、COCO[31]和TrackingNet[38]数据集的训练分割。图像对是从视频中采样的,最大帧间隔为100帧。搜索图像和模板的大小分别为256×256像素和80×80像素,分别对应于目标框面积的4²倍和1.5²倍,从而产生金字塔特征{}和{}。尽管较低的输入分辨率带来了额外的速度提升,但这并不是本文的重点,因此我们在所有后续实验中均设置了上述尺寸。测试图像在位置和尺度上进行了一些扰动增强。

对于所有骨干网络,在训练过程中,第一层和所有BatchNorm层都被冻结。所有实验均训练100个周期,每批64对图像。我们使用ADAMW[33]优化器,骨干网络的初始学习率为10⁻⁵,其余部分的学习率为10⁻⁴。学习率在90个周期时以0.1的因子衰减,损失项的权重分别为λcls=5、λiou=5、λreg=2。在跟踪过程中,在选择分类图Acls w×h×2中的最佳预测点之前,执行尺度惩罚和汉宁窗[18]操作。最终边界框是通过将Areg w×h×2中预测的偏移量添加到最佳预测点的坐标上得到的。

4.2 消融研究

        在本节中,我们从以下方面验证了所提出跟踪器的有效性:骨干网络的选择、与原始Transformer和卷积的比较、TPN超参数的影响以及注意力可视化。我们遵循一次性评估(成功率和精确度)来比较LaSOT[14]测试集上不同的跟踪配置,并报告成功率(AUC)得分。LaSOT[14]是一个大规模的长期跟踪基准,包含280个用于测试的视频。

骨干网络。骨干网络对推理速度和精度有着主要影响。现代架构利用残差跳跃连接、分组/深度卷积来设计能够学习更具代表性特征的高效网络,从而提高推理速度。我们首先比较了使用不同骨干网络的性能。与SiamFC[1]类似,我们移除了所有特征融合模块,并直接从P4预测结果。我们将所有预测层的通道数C设置为192。如表2所示,带有简单骨干网络和预测头的跟踪器在LaSOT上取得了可观的AUC分数,同时在CPU端保持了平均较高的推理速度。具体来说,ShuffleNetV2取得了34.1的AUC分数,帧率为48.1 FPS。

表2: Comparison with different backbones and fusion configuration.

一个直接的问题是:增加更多的卷积层是否有助于提高跟踪性能?于是,我们在P4后面堆叠了额外的卷积层,图5展示了AUC随附加层数变化的情况。堆叠更多的卷积层对精度的提升效率不高,与速度下降相比得不偿失。对于ShuffleNetV2,速度下降了30%以上,而AUC分数仅提高了15%。我们发现AlexNet不适合边缘计算,而ShuffleNetV2和MobileNetV2在精度和速度测试上均取得了相当的结果。在接下来的实验中,我们选择ShuffleNetV2作为骨干网络。

与原始Transformer的比较。为了展示我们提出的TPN模块和PA块的效果,我们设计了一个使用原始Transformer的跟踪器。与堆叠卷积的设置类似,我们在P4后面附加了额外的Transformer层。如图5所示,在不融合金字塔特征的情况下,仅附加一层Transformer的跟踪器比附加六层卷积的跟踪器取得了更好的结果。此外,附加六层Transformer的跟踪器在LaSOT上取得了53.5的AUC分数。接下来,我们使用与TPN相同的设置实现了一个FPN,但将Transformer层替换为卷积和上采样层。附加了两个堆叠FPN的跟踪器从特征金字塔内部的交互中学习到了更全面的表示,并取得了47.2的AUC分数,这表明其优于单层架构。然而,缺乏全局依赖性成为提高精度的瓶颈。我们进一步将Transformer层集成到TPN块中,但不使用Pooling Attention层。通过从金字塔特征中聚合高级语义,该跟踪器在LaSOT上取得了最先进的性能,AUC分数为58.7。然而,我们看到跟踪器的速度下降到了20 FPS以下,这不适用于实时跟踪的要求。最后,我们测试了使用PA层代替Transformer层的TPN模型的结果。

图5. Speed and AUC score for different configurations.

 

即使查询和键的输入大小随尺度R缩小,跟踪器仍然达到了最先进的性能。然而,在LaSOT数据集上,速度提升至32.1 FPS,仅损失0.6的AUC分数,这表明我们的方法在鲁棒性和效率方面都具有优势。

TPN超参数的影响。我们讨论了TPN模型的一些架构超参数。首先,我们研究了TPN块数量的影响。仅使用一个TPN块时,跟踪器的速度略有提升,但AUC分数从58.1下降到52.8。由于原始的Transformer在编码器和解码器中都使用了6层深度,我们认为2个TPN块(深度=6)足以实现稳健的跟踪结果。PA层中的头数也对跟踪稳定性起着重要作用。为了简化,我们将头的维度固定为32,因此我们可以同时测试输入维度C = {128; 192; 256}和头数N = {4; 6; 8}。具有8个头的跟踪器取得了最佳的AUC分数,但代价是推理时间减半(FPS从32.1降低到15.2)。另一方面,仅使用4个头无法有效学习有效表示,并且在LaSOT上仅给出46.2的AUC分数。在实践中,C=192,N=6,B=2在速度和准确性之间提供了最佳平衡。

注意力可视化。图6的前三列显示了来自分类头的响应图,这些响应图带有或不带有TPN模块。如果没有TPN来学习判别特征,则相关结果会变得分散,并且更容易转移到干扰物上。最后三列说明了金字塔特征之间的注意力图。较低级别(P3到P4,P4到P4)之间的注意力在整个搜索区域中提取了更多局部信息,而较高级别(P5到P4)的注意力则更集中于目标对象的语义。所有注意力图都是从边界框内的中心特征点与整个键输入计算得出的。

图6. The visualization of response map with TPN (second column), without TPN (third column) and attention map between Pi and P4.

4.3 与最先进的跟踪器比较

        在本节中,我们将我们的方法与22种最先进的跟踪器进行了比较。其中有4种基于锚点的孪生方法(SiamRPN [27]、SiamRPN++ [26]、DaSiamRPN [51]、HiFT [4]),5种无锚点的孪生方法(SiamFC [1]、SiamBAN [6]、SiamCar [15]、SiamFC++ [47]、Ocean [50]),10种基于DCF的方法(ECO [8]、CCOT [11]、KCF [19]、ARCF [21]、BACF [22]、AutoTrack [29]、CSRDCF [35]、ROAM [48]、DiMP [2]、ATOM [7]),2种基于注意力的方法(CGACD [13]、SiamAttn [49])和1种基于分割的方法D3S [34]。

UAV123 [37] 是最大的无人机跟踪基准之一,采用成功率和精确度指标进行评估。如表3所示,所有在CPU上实现实时速度的跟踪器都是基于DCF的,这依赖于手工特征。这成为了设计高精度跟踪器的瓶颈。另一方面,依赖更深层网络(如Resnet-50)的跟踪器可以实现高性能,但仅适用于GPU设备。相比之下,我们的SiamTPN在CPU上以实时速度运行,同时获得了最先进的结果。具体来说,SiamTPN获得了85.8的精确度得分和66.04的AUC得分,优于最近的先进孪生跟踪器SiamAttn。为了公平比较,我们开发了一种基于AlexNet的变体跟踪器。虽然AlexNet在CPU端不够友好,但我们的跟踪器可以在GPU上以超过100 FPS的速度运行,同时获得与SiamRPN++一致的结果。

表 3: Comparison results
 

VOT2018 [23] 和 OTB [46]:VOT2018数据集包含60个具有不同挑战因素的序列。性能通过预期平均重叠率(EAO)进行比较。OTB包含100个序列,并使用AUC得分评估性能。如表4所示,我们的方法在VOT(第二行)和OTB(第三行)数据集上都获得了与最先进的算法相当的结果。

表4. Evaluation on VOT and OTB datasets

LaSOT [14]:图7显示,我们的SiamTPN在LaSOT测试集上取得了最佳结果,AUC得分为58.1,击败了所有基于深度Resnet的跟踪器(DiMP、ATOM、OCEAN)。

图7: Evaluation results of trackers on LaSOT [14] 

Got10K [20] 是另一个大规模数据集,采用平均重叠率(AO)作为衡量标准。根据通用对象跟踪的要求,训练集和测试集之间没有对象类别的重叠,这更具挑战性,需要具有强大泛化能力的跟踪器。我们遵循其协议,并使用训练分割来训练网络。如图1所示,与最先进的孪生跟踪器SiamRPN++ [26]相比,SiamTPN在AO上实现了相对12%的更高性能。另一方面,我们的方法超过了所有基于DCF的跟踪器,同时在CPU上保持了实时推理速度。

4.4. 现实世界实验测试

        在本节中,我们验证了所提出的跟踪器在现实世界无人机跟踪中的可靠性。硬件设置包括一架多旋翼无人机、一台嵌入式PC、一个三轴云台和一个可视化的PTZ(平移-俯仰-变焦)相机。我们设置了三个不同的跟踪场景来验证SiamTPN的跟踪速度、泛化能力和鲁棒性。具体来说,实地测试包括:(1)使用地面固定的PTZ相机跟踪无人机,如图8a所示。(2)使用无人机跟踪并跟随移动的人,并保持目标在视野范围内,如图8b所示。(3)使用另一架带有嵌入式PTZ相机的无人机(追踪者)跟踪无人机(逃避者),其中两架无人机以自定义轨迹飞行,但PTZ相机的参数会根据逃避者的位置进行自适应调整,如图8c所示。无人机的位置由两个GPS设备记录,并显示在图8c(I)中,其中红色(蓝色)点对应追踪者(逃避者)。图8显示了在复杂环境下获得的精确跟踪结果,展现了跟踪器在现实世界应用中的鲁棒性和实用性。我们还比较了不同边界框大小下的跟踪速度变化。根据像素数量,我们将边界框经验性地分为三类,即小(<1600)、中(<10000)和大(>10000)。图8c(II)展示了在不同情况下的稳定推理速度。

图8. Visualization of real-world tracking on drones

5. 结论

        在本文中,我们提出了一种变换器金字塔网络,该网络从不同层聚合语义信息。金字塔特征之间的交叉注意力中提取了局部交互和全局依赖关系。为了防止计算开销过大,进一步引入了池化注意力机制。综合实验表明,我们的方法在跟踪结果上取得了显著提升,同时在CPU端实现了实时运行速度。

 

  • 8
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值