TCTrack: Temporal Contexts for Aerial Tracking

在三年之后

已于 2023-07-03 15:41:42 修改

阅读量1.4k

点赞数 1

分类专栏：单目标跟踪文章标签：目标跟踪计算机视觉深度学习

于 2022-03-14 11:09:04 首次发布

本文链接：https://blog.csdn.net/IS_MOKE/article/details/123458814

版权

单目标跟踪专栏收录该内容

32 篇文章 7 订阅

订阅专栏

本文提出了TCTrack，一个综合框架，利用时间上下文提升基于暹罗网络的空中视觉跟踪性能。TCTrack在特征提取和相似性图细化两个层次利用时间信息，通过在线时间自适应卷积（TAdaConv）增强特征表示，并使用自适应时间变换器（ATTrans）精细化相似性图。实验表明，TCTrack在多个空中跟踪基准上表现出色，同时在真实世界无人机测试中保持高效运行。

摘要由CSDN通过智能技术生成

在现有的视觉跟踪器中，连续帧之间的时间上下文远远没有得到充分利用。在这项工作中，我们提出了TCTrack1，这是一个全面的框架，可以充分利用空中跟踪的时间上下文。时间上下文分为两个层次：特征提取和相似性图的细化。具体而言，在特征提取方面，提出了一种在线时间自适应卷积算法，利用时间信息增强空间特征，该算法通过根据前一帧动态校准卷积权重来实现。对于相似性图的细化，我们提出了一种自适应时间变换器，在对时间知识进行解码以精确调整相似性图之前，该变换器首先以高效记忆的方式对时间知识进行有效编码。TCTrack是有效的：对四个空中跟踪基准的评估显示了它令人印象深刻的性能；真实世界的无人机测试表明，它在英伟达Jetson AGX Xavier上的速度超过27 FPS。
Introduction
视觉跟踪是计算机视觉中最基本的任务之一。由于无人机（UAV）具有优越的机动性，基于跟踪的应用正在经历快速发展，例如运动对象分析[57]、地理调查[61]和视觉定位[47]。然而，空中跟踪仍然面临两个困难：1）空中条件不可避免地带来特殊挑战，包括运动模糊、相机运动、遮挡等；2）空中平台的有限能力限制了计算资源，阻碍了耗时的最先进方法的部署[6]。因此，理想的空中跟踪跟踪器必须具有鲁棒性和高效性。
大多数现有的跟踪器采用标准的跟踪方式- 检测框架，并独立地对每一帧执行检测。在这些跟踪器中，基于判别相关滤波器（DCF）的方法被广泛应用于空中平台，因为它们的高效率和低资源需求源自傅立叶域中的操作[16,31,38]。然而，当存在快速运动和严重的外观变化时，这些跟踪器会遇到困难。最近，基于暹罗的网络已经成为精确和稳健跟踪的强大框架[2,4,11,41,42]。[7,21,22]中还优化了其效率，以便在空中平台上实时部署基于暹罗的跟踪器。
然而，这些框架忽略了连续帧之间固有的强相关性，即时间信息，这使得这些方法难以感知目标对象的运动信息。因此，当目标遭受不同复杂条件（如大运动和遮挡）导致的严重外观变化时，这些跟踪器更有可能失败。这引发了最近关于如何利用时间信息进行视觉跟踪的研究。对于基于DCF的方法，响应图沿时间维度的变化受到惩罚[33,47]，这通过以前的指导了当前的响应图。在基于暹罗语的网络中（这是本研究的重点），时间信息通过动态模板引入到大多数作品中，动态模板通过串联[72]、加权和[74]、图形网络[24]、变压器[68]或内存网络[23,73]将历史对象的外观集成到当前模板中。尽管他们成功地将时间信息引入视觉跟踪任务，但大多数探索仅限于整个跟踪过程中的一个阶段，即模板特征
。
在这里插入图片描述

在这项工作中，我们提出了一个在基于暹罗语的网络中利用时间上下文的综合框架，我们称之为TCTrack。如图1所示，TCTrack在两个级别将时间上下文引入跟踪管道，即特征和相似性映射。在特征层，我们提出了一种在线时间自适应卷积（TAdaConv），利用前几帧动态校准的卷积权重来提取特征。基于这种操作，我们将标准卷积网络转换为时间自适应网络（TAdaCNN）。由于在线TAdaConv中的校准基于之前帧中特征的全局描述符，TAdaCNN只引入了可忽略不计的帧速率下降，但显著提高了跟踪性能。在相似图层次，提出了一种自适应时间变换器（ATTrans）来根据时间信息对相似图进行细化。具体地说，AT-Trans采用编码器-解码器结构，其中（i）编码器通过将前一先验知识与当前相似性图集成来产生当前时间步长的时间先验知识，以及（ii）解码器基于所产生的时间先验知识以自适应方式精化相似性图。与[23,24,68]相比，AT-Trans具有内存效率，因此边缘平台友好，因为我们在每一帧不断更新时间先验知识。总的来说，我们的方法提供了一个整体的时间编码框架来处理基于暹罗语的空中跟踪中的时间上下文。 
对TCTrack的广泛评估表明了所提出框架的有效性和效率。与51台最先进的跟踪器相比，在四个标准空中跟踪基准上观察到了具有竞争力的精度和精度，其中TCTrack在PC上的帧速率也高达125.6 FPS。在NVIDIA Jetson AGX Xavier上的实际部署表明，TCTrack在空中跟踪方面保持了令人印象深刻的稳定性和鲁棒性，以超过每秒27帧的帧速率运行。 
## Related Work
通过检测进行跟踪。在D.S.Bolme等人首次提出MOSSEfilter[5]之后，人们进行了许多研究[16,31,38]，以提高跟踪性能。然而，由于它们的代表性特征表达较差，在复杂的空中跟踪条件 环境下很难保持鲁棒性- 。最近，基于暹罗的跟踪器因其SOTA精度和诱人的效率而脱颖而出[2,3,9,26,41,42,78]。为了满足空中跟踪的要求，一些工作提出了有效的跟踪方法[7,21,22]。 
尽管实现了SOTA性能，但上述跟踪器忽略了跟踪场景中的时间上下文，从而阻碍了性能的提高。不同的是，我们的跟踪器可以在跟踪过程中有效地对历史时间上下文进行建模，以提高可分辨性和鲁棒性。 
基于时间的跟踪方法。以前，许多工作致力于利用跟踪场景中的时间信息来提高跟踪性能[10,33,43,47]。最近，许多基于DL的时间跟踪方法主要关注基于变压器积分[68]、模板内存更新[23,27,73]、图网络[24]、加权和[74]和显式模板更新[72]的动态模板。他们试图根据预定义的参数以显式或隐式方式更新模板特征。然后，基于变换后的模板特征，这些跟踪器利用跟踪序列中的离散时间信息。 
尽管具有优异的跟踪性能，但它们仅通过整个跟踪管道中的一个级别引入时间信息，阻碍了跟踪性能的进一步提高。为了充分利用时态上下文，本文提出了一个综合框架，从两个层次，即特征层和相似图层来探索时态上下文。 
视频中的时间建模。对时间动态进行建模对于真正理解视频至关重要。因此，它在监督范式[20,35,48,49,63,70]和自我监督范式[28,29,34,36,39]中都得到了广泛的探索。自监督方法通过解决各种文本前任务来学习时间建模，如密集未来预测[28,29]、拼图游戏解决[36,39]和伪运动分类[34]等。监督视频识别探索不同帧之间的各种连接，如3D卷积[62]、时间卷积[63]，时间偏移[48]等。与我们的工作密切相关的是时间自适应卷积[35]，用于视频中的时间建模。在本文中，为了适应跟踪任务，我们提出了一种能够根据时间上下文提取空间特征的在线CNN，以全面丰富时间信息。 
## Temporal Contexts for Aerial Tracking
![在这里插入图片描述](https://img-blog.csdnimg.cn/430c1b509b9b492fa437e7601c632802.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAYmlnYm9vbWNsYXA=,size_20,color_FFFFFF,t_70,g_se,x_16)
在本节中，我们的框架的详细结构如图2所示。提出的框架从两个新的角度考虑了时间上下文：（1）在线特征提取，其中我们结合了TAdaCNN的时间上下文（第3.1节）；相似图 微调 在这里，我们使用一种新的AT Trans对时间知识进行编码，然后根据时间先验知识细化相似性图（第3.2节）。 
##  Feature extraction with online TAdaConv
![在这里插入图片描述](https://img-blog.csdnimg.cn/fd2a18dcc0f041eb8ad5e5b738e9d86f.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAYmlnYm9vbWNsYXA=,size_13,color_FFFFFF,t_70,g_se,x_16)

作为我们的框架的一个关键组成部分，提出了一种在线TAdaConv用于特征提取过程考虑时间上下文的结构如图3所示。从形式上讲，在第t帧网络Xt的某个阶段，如果在线TAdaConv的输入特性为在线TAdaConv，则可获得在线TAdaConv〜Xt的输出，如下所示：：/Xt=Wt∗ Xt+bt，（1）操作员∗ 表示卷积运算，Wt、bt表示卷积的时间权重和偏差。标准卷积层使用可学习的权重和偏差参数，并在整个跟踪序列中共享这些参数。不同的是，在我们的在线卷积层中，参数是通过可学习的参数（Wb和bb）和校准因子来计算的，每个帧的校准因子是不同的，即Wt=Wb·αWt和bt=bb·αbt。与视频理解的原始结构不同，在线TAdaConv一次处理一帧。因此，它只考虑过去的时间背景，就像真实世界中的跟踪一样。具体来说，我们保持一个时间上下文队列ˆX∈ RL×COFL帧描述符ˆXt∈ RC，包括当前帧的RC： ˆ X = Cat( ˆ Xt, ˆ Xt−1, …, ˆ Xt−L+1) , (2) 其中Cat表示级联，帧描述符通过对每个即将到来的帧的特征的全局平均池（GAP）获得，即ˆXt=GAP（Xt）。为了生成校准因子αwt和αbt，我们在时间上下文队列ˆX上执行两次卷积，核大小为L，即αwt=Fw（ˆX）+1，αbt=Fb（ˆX）+1，其中Fi表示卷积运算。此外，F的权重初始化为零，以便在初始化时，Wt=Wb和bt=bb。对于t≤ L− 1，若之前的帧不足，则使用第一帧ˆX1的描述符填充该帧。考虑到在特征提取过程中考虑时间上下文的主干洋tada，第t帧的相似性映射Rt可以如下所示： Rt =ϕtada(Z) ?ϕtada(Xt) , (3)其中Z表示模板和？表示深度相关性[41]。之后，可以通过卷积层获得Ft，即Ft＝F（Rt）。备注1：据我们所知，我们的在线TAdaCNN是第一个在跟踪任务的特征提取过程中集成时间上下文的。

Similarity Refinement with AT-Trans

除了在特征提取过程中考虑时间上下文之外，本文还提出了一种AT Trans，用于根据时间上下文对相似性映射Ft进行细化。具体来说，我们的AT Trans有一个编码器结构，编码器的目标是集成 时域

知识和解码器侧重于相似性细化。在本节中，在描述AT Trans的细节之前，我们首先回顾了多头注意[64]。多头注意。作为变压器的一个基本部件，多头注意的公式如下：MultiHead(Q, K, V) =
?
Cat(H1att, …, HNatt)
?
W
Hnatt = Attention(QWnq , KWnk , VWnv )
Attention(Q, K, V) = Softmax(QKT/√d)V
, (4)
哪里√d是比例因子，W∈ RCi×Ci，Wnq∈ RCi×Ch，Wnk∈ RCi×Ch和Wnv∈ RCi×Ch是可学习的权重。在我们的AT-Trans中，我们采用了6个头的多头注意，即N=6和Ch=Ci/6
与CNN相比，Transformer可以更有效地编码全局上下文信息[18,64]。因此，为了更有效地利用全局时态上下文，我们提出了一种基于转换器的时态集成策略来对全局上下文信息进行连续编码。此外，大多数现有的基于时态的方法通常存储用于时态建模的输入特征，不可避免地引入敏感参数和不必要的计算。在这项工作中，为了消除不必要的操作和敏感参数，我们采用了时态知识的在线更新策略。
## Transformer encoder.
编码器通过将先验知识与当前特征相结合来生成时间先验知识。通常，在应用时间信息过滤器之前，我们会堆叠两个多头注意层。通过对过滤后的信息进一步附加多头注意层，获得当前步骤的最终时间先验知识。编码器的结构如图4（a）所示。
在这里插入图片描述
鉴于之前的时间先验知识，Fmt−1和当前的相似性映射Ft，有两种方法整合它们的信息转化为当前先验知识Fmt，与查询、键和值的选择有关。一个使用Fmt−1作为查询，Ft作为值和键，而另一个则相反。在我们的方法中，我们采用了前者，因为这本质上更加强调了当前的相似性图。这似乎是合理的，因为更接近的时间信息比前一个更能准确地表示当前对象的特征。Sec的实证结果。4.3还验证了该选择的有效性。因此，我们在第t帧F2t中通过 F1t = Norm(Ft + MultiHead(Fmt−1, Ft, Ft))
F2t = Norm(F1t + MultiHead(F1t , F1t , F1t )) ,其中Norm表示层规范化
由于空中跟踪经常会遇到由运动模糊或遮挡引起的不太有用的上下文，如果我们在不进行任何过滤的情况下传递完整的时间信息，可能会包含一些不需要的上下文。为了消除不需要的信息，通过将前馈网络FFN附加到由全局平均池GAP获得的F1t的全局描述符，即α=FFN（GAP（F（F1t）），来生成整洁的时间信息过滤器。过滤信息Ff t可通过以下方式获得： Ff
t = F2t + F(Cat(F2t , F1t ))∗α ,
其中F表示卷积层。由此，t-th帧Fmt的时间知识可以如下获得：
Fmt = Norm(Ff
t + MultiHead(Ff
t , Ff
t , Ff
t )) .
因此，对于每一帧，我们更新时态知识，而不是保存所有的时态知识。这让记忆在整个跟踪过程中，时间先验知识的占用是固定的，这使得TCTrack记忆比需要保存所有中间时间信息的方法更有效。总的来说，由于这种策略以及时间过滤器和多头注意，我们的AT以一种高效记忆的方式对时间先验进行自适应编码。
对于跟踪序列中的第一帧，由于不同目标的特征不同，因此对初始时间先验Fm0进行统一初始化是不合理的。观察到第一帧中的相似度图基本上有效地表示了目标对象的语义特征，我们通过对初始相似度图F0进行卷积来设置初始时间先验，即Fm0=Finit（F0）。我们还根据经验证明，我们的初始化在Sec中更好。4.3.
Transformer decoder
解码器根据时间先验知识Fmt对相似性图进行细化。为了更好地探索时间知识和当前空间特征之间的相互关系，我们采用了两个输出前向反馈的多头注意层。其结构如图4（b）所示。通过生成注意图，可以提取时间知识Fmt中的有效信息，对相似度图Ft进行细化，得到最终输出F∗t: F3t = Norm(Ft + MultiHead(Ft, Ft, Ft))
F4t = Norm(F3t + MultiHead(F3t , Fmt , Fmt ))
F∗t = Norm(F4t + FFN(F4t ))基于AT-Trans的编解码器结构，有效地利用时间上下文来细化相似度映射，以提高鲁棒性和准确性。图5中相似图的比较显示了相似图细化的有效性，尤其是在存在相机运动、剧烈运动和遮挡的情况下。
## Experiments
我们的框架在四个公共权威基准上进行了评估，并在真实的空中跟踪条件下进行了测试。在本节中，我们的方法在四个著名的空中跟踪基准上进行了综合评估，即UAV123[54]，UAVTrack112 L[21]，UAV123@10fps[54]和DTB70[45]。包括51个现有的顶级跟踪器，以进行彻底的比较，其结果是通过运行带有相应超参数的官方代码获得的。为了更清楚地比较，我们将他们分为两组，（i）轻型跟踪器[1,2,6,7,12,14-17,22,27,33,38,41,43,44,46,47,51,52,65-67,75,76,80]和（ii）深跟踪器[4,8,9,11,13,23,25,26,41,50,53,59,68,71,78,79]。
## Implementation Details
我们使用AlexNet作为跟踪器的主干，因为效率对于空中跟踪至关重要。如表1所示，英伟达JetsAGX沙维尔平台上不同流行的主干推断时间的比较表明，AlexNet具有最低的潜伏期，而移动网络（37, 56, 77）的最新发展遭受高内存访问成本（MAC）。对于初始化，我们对AlexNet使用ImageNet预训练模型，并对在线TAdaConv使用与[55]中相同的初始化。TCTrack中的AT Trans是随机初始化的。
我们用视频[55]、Lasot[19]和GOT-10K[32]中长度为4的视频来训练跟踪器。我们在两个NVIDIA TITAN RTX GPU上训练TCTrack总共100个时代。在前10个时期，主干的参数被冻结，如下[41]。培训过程的其余部分采用的学习率在日志空间中从0.005降至0.0005。SGD被用作动量为0.9的优化器，其中最小批量为124对。模板和搜索区域的输入大小分别为127×127和287×287。建议的在线TAdaConv用于替换最后两个卷积层。

Comparison with Light-Weight Trackers

在本小节中，将TCTrack与标准空中跟踪基准上的29台现有高效跟踪器进行比较。对于基于暹罗语的方法，我们使用与我们相同的主干进行评估，以便进行公平比较。 
UAV123。UAV123[54]是一个大型空中跟踪基准，涉及123个具有挑战性的序列，超过112K帧。UAV123的性能评估可以验证最常见的空中跟踪条件下的跟踪性能。如图6所示，我们的TCTrack在AUC（3%）和（4.3%）方面优于Shift和SiamRPN++。
DTB70。DTB70[45]包括各种挑战场景中的70种剧烈运动场景。为了评估我们的方法在处理运动方面的有效性，我们采用这个基准来证明TCTrack的鲁棒性。与图6所示的其他最佳跟踪器相比，我们的跟踪器排名第一，AUC提高了5%。
UAV123@10fps.采用10 FPS的图像速率，运动和变化在图像中更加突然和严重UAV123@10fps[54]，从而大大提高了跟踪的难度。从与其他SOTA跟踪器的比较中，我们可以清楚地看到，我们的跟踪器保持了卓越的鲁棒性，并且在成功率和准确率方面超过了第二好的跟踪器

。
基于属性的性能。在空中跟踪条件下，无人机的剧烈运动会增加难度。为了充分分析我们的跟踪器在快速运动、相机运动、遮挡、视野外等特定挑战中的鲁棒性，我们进行了基于属性的比较。图7所示的其他SOTA跟踪器之间的比较证明了我们的框架在几种挑战性条件下的鲁棒性。因为我们的跟踪器可以积累从第一帧到当前帧的连续时间知识，所以我们的跟踪器可以学习对象的历史位置。因此，我们的跟踪器在遮挡和快速运动场景中获得了优异的性能。此外，得益于我们的内容适应性时态知识和在线TAdaConv，TCTrack可以应对环境带来的负面影响。
UAVTrack112 L.为了验证我们的框架在长期跟踪性能方面的有效性，我们对UAVTrack112 L[21]进行了评估，这是目前最大的长期空中跟踪基准，包括超过60k帧。如表2所示，
在这里插入图片描述
由于我们的全面框架充分利用了时间上下文，TCTrack确实在精度（0.786）和成功率（0.582）方面取得了优于其他SOTA跟踪器的性能。

Ablation Study

为了验证我们的框架的有效性，本小节介绍了全面的消融研究。符号的澄清。在这项工作中，基线表示采用每帧检测的纯暹罗式跟踪器。TIF表示编码器中的时间信息过滤器。TCS在我们的自适应时间转换器生成的相似图中表示时间上下文。请注意，由于我们的方法需要一种启动时间知识的方法，TCS必须与RI（随机启动）或CI（卷积启动）相结合。此外，为了确保实验的正确性，除所研究的模块外，所有跟踪器都采用相同的过程（包括训练、参数设置等）。
时态知识分析。添加连续的时态知识而不过滤掉无效信息（第二行）会让跟踪器感到困惑。因此，跟踪性能受到显著影响。通过在检测跟踪框架中添加我们的信息过滤器，我们的模块可以通过自适应地选择有效的上下文来提高性能。此外，通过结合AT-Trans和TIF，跟踪性能得到提升。如前所述，使用第一帧中跟踪对象的唯一信息来启动时间知识比随机启动更合适，尤其是在遮挡条件下（提高约6%）。我们还分析了不同查询造成的影响。结果证明，基于当前相似度图的细化更有效，更适合处理运动场景（改进超过10） 由AT-Trans编码的时间知识带来了显著的改善（总AUC为9.8%，总精度为6.7%）。具体来说，我们的跟踪器在处理运动场景方面的性能最好，分别提高了12.0%和15.1%。在遮挡条件下，由于连续的时间上下文，我们的跟踪器可以通过先前的信息重新定位对象，从而将成功率提高了11.4%。关于时间序列长度的研究。如表所示。4.当TAdaConv的图像范围增大时，性能提高。为了有效地引入时间上下文，本文采用3作为序列长度，即L=3。 
## Comparison with Deep Trackers