Transformer Meets Tracker: Exploiting Temporal Context for Robust Visual Tracking翻译

最新推荐文章于 2023-08-21 21:24:26 发布

奋斗的校长

最新推荐文章于 2023-08-21 21:24:26 发布

阅读量589

点赞数 5

分类专栏： Tracking 文章标签： transformer 深度学习自然语言处理

本文链接：https://blog.csdn.net/qq_41898181/article/details/115280788

版权

Tracking 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

摘要

在视频对象跟踪中，连续帧之间的文本中存在着丰富的信息，然而在现有跟踪器中这很大程度上被忽略了。在我们的工作中，通过transformer结构建立起了单个帧之间的联系，并探索了上下文信息来实现跟踪。与传统处理自然语言的transformer结构不同，我们将其编码器和解码器分成两个并行分支并仔细设计，它们在类似于孪生网络的跟踪管道。transformer编码器通过基于注意力的功能增强来提升目标模板，这有利于高质量跟踪模型生成。transformer解码器将跟踪提示从先前的模板传播到当前帧，从而简化了对象搜索过程。我们的transformer辅助跟踪框架整洁并以端到端的方式进行了训练。使用建议的transformer，一种简单的孪生匹配方法就可以胜过当前表现最佳的跟踪器。通过将我们的transformer与最新的判别式跟踪管道相结合，我们的方法在流行的跟踪基准上创下了一些新的最新记录。

一、介绍

图1. 我们的transformer辅助跟踪框架的概述。变压器编码器和解码器分配给连体式跟踪管道中的两个并行分支。由于采用了编码器-解码器结构，隔离的帧被紧密地桥接，以在视频流中传达丰富的时间信息。

视觉对象跟踪是计算机视觉中的基本任务。尽管最近取得了进展，但这仍然是一项艰巨的任务由于诸如咬合，变形和外观变化等因素。随着时间误差的累积，这些挑战在在线过程中被进一步放大。

众所周知，视频流中丰富的时间信息对于视觉跟踪至关重要。但是，大多数跟踪范式[29、28、49]通过每帧对象检测来处理此任务，其中连续帧之间的时间关系在很大程度上被忽略了。以流行的孪生跟踪器为例，模板匹配只考虑初始目标[1、45、19、29]。唯一使用的时间信息是假设目标平滑移动的先验运动（例如余弦窗口），这在视觉跟踪器中被广泛采用。在具有更新机制[20、40、8、60、62、3]的其他跟踪框架中，先前的预测结果被收集以递增地更新跟踪模型。尽管上述方法考虑了历史帧，但视频帧仍被视为独立的副本，无需相互推理。在现实世界的视频中，某些帧不可避免地包含嘈杂的内容，例如被遮挡的物体或模糊的物体。这些不完善的框架在用作模板时会损害模型更新，并在充当搜索框架时会挑战跟踪过程。因此，跨时间帧传达丰富的信息以相互加强它们是个重要问题。我们认为视频帧不应被孤立对待，并且由于忽略了逐帧关系，因此性能潜力在很大程度上受到限制。

为了桥接孤立的视频帧并在它们之间传达丰富的时间线索，在这项工作中，我们向视觉跟踪社区介绍了transformer架构[47]。与在语言建模和机器翻译中使用转换器的传统用法不同[47，12]，我们利用它来处理时域中的上下文传播。通过仔细修改经典transformer架构，我们证明了它的变换特性自然适合跟踪场景。它的核心组件，即注意机制[47、57]，准备在整个帧之间建立像素方向的对应关系，并在时域中自由地传递各种信号。

通常，大多数跟踪方法[1、46、29、43、7、3]都可以表述为类似于Siamese的框架，其中顶部分支使用模板特征学习跟踪模型，底部分支对当前搜索补丁进行分类。如图1所示，我们将变压器编码器和解码器分为两个分支，在这种一般的Siamese结构中。在顶部分支中，一组模板补丁被馈送到transformer编码器，以生成高质量的编码特征。在底部分支中，搜索功能以及先前的模板内容被馈送到transformer解码器，在该转换器中，搜索补丁从历史模板中检索并聚集信息丰富的目标提示（例如，空间mask和目标特征）以增强自身。

建议transformer架构通过以下方式进行视觉跟踪：

Transformer Encoder. 它使各个模板特性能够相互增强，以获得更紧凑的目标表示，如图2所示。这些编码的高质量特征进一步有利于跟踪模型的生成。
Transformer Decoder. 它跨帧传达有价值的时间信息。如图2所示，我们的解码器同时传输特征和空间mask。传播先前框架中的特征对当前补丁的平滑处理可以改变外观并纠正上下文噪声，同时变换空间注意力以突出潜在的对象位置。这些多样的目标表示和空间线索使对象搜索变得更加容易。

最后，我们在解码的搜索补丁中跟踪目标。 为了验证我们设计的变压器的通用性，我们将其集成到两个流行的跟踪框架中，包括暹罗公式[1]和基于判别相关滤波器（DCF）的跟踪范例[3]。 使用我们设计的变压器，简单的暹罗匹配管道就可以胜过当前性能最高的跟踪器。结合最近的判别方法[3]，我们的变压器辅助跟踪器在包括LaSOT [13]在内的七个流行跟踪基准上均显示了出色的结果。，TrackingNet [39]，GOT-10k [23]，UAV123 [37]，NfS [24]，OTB-2015 [58]和VOT2018 [26]，并创造了一些新的最新记录。

总而言之，我们做出三方面的贡献：

我们提出了一种简洁而新颖的transformer辅助跟踪框架。据我们所知，这是使transformer参与视觉跟踪的首次尝试。
我们同时考虑特征和注意力转换，以更好地探索transformer的潜力。我们还修改了经典transformer，使其更适合跟踪任务。
为了验证一般性，我们将设计好的transformer集成到两个流行的跟踪管道中。我们的跟踪器在7个基准上显示出令人鼓舞的结果。

图2. 顶部：变压器编码器接收多个模板特征以相互汇总表示形式。底部：变压器解码器将模板特征及其分配的掩码传播到搜索补丁特征以增强表示形式。

2、相关工作

视觉跟踪。给定第一帧的初始目标，视觉跟踪旨在将其定位在连续的帧中。近年来，暹罗网络获得了极大的普及，它通过模板匹配来处理跟踪任务[1，45，19]。通过引入区域提议网络（RPN），Siamese trackers可以获得更高的效率和更准确的目标规模估计[29，65]。**暹罗跟踪器的最新改进包括注意机制[55]，强化学习[22、52]，目标感知模型微调[31]，无监督训练[51、53]，复杂的骨干网[28、63]，级联框架[14、50]和模型更新机制[16、17、60、62]。

判别相关滤波器（DCF）通过解决傅立叶域中的岭回归来解决视觉跟踪问题，该方法具有吸引人的效率[20，36，35，15，38，54,11，8]。最近的进展表明，在深度学习框架中可以解决岭回归问题[43、33、7、3]，这避免了经典DCF跟踪器中的边界效应。这些方法学习有区别的CNN内核，以与搜索区域卷积以生成响应。在最近的工作中，剩余项[43]和收缩损失[33]被合并到深层DCF公式中。为了加速卷积核学习过程，ATOM [7]利用共轭梯度算法。最近的DiMP跟踪器[3]以端到端的方式增强了学习的CNN内核的判别能力，而概率回归框架则进一步提高了判别能力[9]。

尽管性能令人印象深刻，但大多数现有方法[40、1、29、7、3、34、49]通常将跟踪任务视为每帧对象检测问题，无法充分利用跟踪任务的时间特性。先前的一些工作使用图神经网络[16]，时空正则化[30]，光流[66]等来探索时间信息。不同地，我们利用transformer对帧间关系进行建模并传播时间线索，非常整洁并准备与现代深层追踪器集成。

Transformer. [47]首先提出了Transformer作为机器翻译的新范例。Transformer中的基本块是注意模块，该模块聚集来自整个输入序列的信息。由于并行计算和独特的存储机制，在处理长序列方面，Transformer体系结构在许多自然语言处理（NLP）任务[12、42、44]比RNN更具竞争力。类似地，非局部神经网络[57]也引入了一个自注意块来获取全局表示，这已被许多视觉任务所采用，包括视觉对象跟踪[61]。然而，很少研究如何利用紧凑的Transformer编码器-解码器结构进行视觉跟踪。

最近，Transformer体系结构已被引入计算机视觉，例如图像生成[41]。在文献[5]中提出了一种基于变压器的目标检测方法，该方法将目标检测任务视为直接集预测问题。但是，以上技术在图像级任务中利用了转换器。在本文中，我们展示了通过跨帧传输时间信息，转换器结构非常适合与视频相关的场景。为了弥合视觉跟踪和NLP任务之间的领域鸿沟，我们仔细修改了经典
Transformer以更好地适应跟踪情况。

3.回顾跟踪框架

在这里插入图片描述
图3. 基于Siamese [1]和DCF [7，3]的跟踪器的简化管道。可以将这些跟踪方法制定为类似于暹罗的管道，其中顶部分支负责模型生成和底部分支将目标定位。

在详细介绍用于目标跟踪的Transformer之前，为了完整起见，我们简要回顾一下最近流行的跟踪方法。如图3所示，可以将主流跟踪方法（例如Siamese网络[1]或判别相关滤波器（DCF）[46、7、3]制定为类似Siamese的管道），其中顶部分支使用模板来学习跟踪模型，而底部分支则专注于目标位置信息。

孪生匹配体系结构[1]以示例补丁z和搜索补丁x作为输入，其中z表示目标对象，而x是后续视频帧中的大搜索区域。它们都被馈送到权重共享的CNN网络Ψ（·）。他们的输出特征图是
如下互相关以生成响应图：
在这里插入图片描述
其中*是互相关的，b·II表示偏差项。暹罗跟踪器依靠目标模型即卷积核Ψ（z）进行模板匹配。

作为另一个流行的框架，基于深度学习的DCF方法根据岭回归公式[43、7、3]优化跟踪模型f，如下所示：
在这里插入图片描述
其中y是模板补丁z星的高斯形状的真实标签，而λ控制正则项以避免过度拟合。注意z星Siamese追踪器中的示例补丁z大得多。因此，DCF公式同时考虑了目标匹配和背景区分。获得跟踪模型之后f，则通过r = f ∗Ψ（x）生成响应。

传统的DCF方法[20，10]通过傅立叶域中的闭式解使用圆形生成的样本来求解岭回归。相反，最近基于深度学习的DCF方法可解决等式。 [2]使用随机梯度下降[43，33]或共轭梯度方法
[7]避免边界效应。最近的DiMP [3]通过元学习器以端到端的方式优化了上述的岭回归，显示了最先进的性能。

4、视觉跟踪Transformer

如第3节所述，主流跟踪方法可以制定为连体式管道。我们的目标是通过帧关联建模和时间上下文传播来改进这种通用的跟踪框架，而无需修改它们的原始跟踪方式，例如模板匹配。

4.1、Transformer概述

我们的Transformer的结构如图4所示。类似于经典的Transformer架构[47]，编码器利用自我注意模块来相互增强多个模板功能。在解码过程中，交叉注意力块桥接模板和搜索分支以传播时间上下文（例如，特征和注意力）。
在这里插入图片描述
图4.建议Transformer架构的概述。

为了适应视觉跟踪任务，我们在以下方面对经典转换器进行了修改：（1）编码器-解码器
分离。而不是像在NLP任务[47，12]中级联编码器和解码器。如图1所示，我们将编码器和解码器分成两个分支，以适应类似于Siamese的跟踪方法。（2）共享块重权值。编码器和解码器中的自注意块（图4中的黄色框）共享权重，这些权重在相同的特征空间中转换模板和搜索嵌入，以促进进一步的交叉注意计算。（3）实例归一化。在NLP任务[47]中，使用层归一化对单词嵌入进行单独归一化。由于我们的转换器接收了图像特征嵌入，因此我们在实例（图像补丁）级别上对这些嵌入进行了归一化，以保留有价值的图像幅度信息。（4）减肥设计。速度对于视觉跟踪很重要。为了在速度和性能之间取得良好的平衡，我们通过省略完全连接的前馈层并保持轻巧的单头注意力来使经典的变压器参数减少。

4.2、Transformer Encoder

经典转换器中的基本块是注意力机制，它接收查询
在这里插入图片描述
其中Q̄和K̄是整个通道上Q和K的L2正则化特征，而τ是控制Softmax分布的温度参数，这受模型蒸馏[21]和对比学习[6]的启发技术。利用从K到Q的传播矩阵A K→Q，我们可以通过A乘V来得到值。在我们的框架中，Transformer编码器接收一组模板特征T i∈RC×H×W，其空间大小为H×W，维数为C，这些特征进一步组合形成模板特征集合T = Concat（T 1， ···，T n）∈R n×C×H×W。为了便于注意力计算，我们将T重整为T∈R N T×C，其中N T = n×H×W。如图4所示，变压器编码器的主要操作是自我注意，即旨在相互增强多个模板的功能。为此，我们首先计算自我注意图在这里插入图片描述
基于自相似矩阵A T→T，我们通过A T→T T变换模板特征，将其作为残差项添加到原始特征T中，如下所示：

其中T̂∈R N T×C是编码模板特征和Ins.Norm（·）表示实例归一化，它联合l2归一化图像块中的所有嵌入，即特征图级别（T i∈R C×H×W）归一化。
由于自我注意，多个时间上不同的模板特征相互聚合，生成高质量的T̂，并进一步反馈到解码器块以增强搜索补丁特征。此外，该编码的模板表示T̂也被重整为T encoded的∈Rn×C×H×W，以用于跟踪模型的生成，例如DCF。4.4节中的模型。

4.3、Transformer Decoder

变压器解码器将搜索补丁特征S∈R作为其输入。与编码器类似，我们首先将此特征重塑为S∈R，其中N = H×W。然后，将S’馈送到自注意块，如下所示：
在这里插入图片描述
其中A = Atten（φ（S），φ（S））∈R是搜索功能的自注意力矩阵。
Mask Transformation. 基于等式5中的搜索特征Ŝ，和等式4中的编码模板特征T̂,我们计算交叉注意力之间的矩阵,它们通过A = Atten（φ（，），φ（T̂））∈R，其中φ（·）是类似于φ（·）的1×1线性变换块。该交叉注意图A在帧之间建立了像素到像素的对应关系，从而支持了时间上下文的传播。

在视觉跟踪中，我们知道模板中的目标位置。为了传播时间运动先验，我们通过以下步骤构造模板特征的高斯掩码：在这里插入图片描述
其中c是真实目标位置。与特征集合T相似，我们也将这些mask m∈R连接起来，形成mask 集合M = Concat（m 1，···，mn）∈R，并将其进一步展平为M’∈R。注意图A，我们可以通过AM’∈R轻松地将先前的掩码传播到搜索补丁。转换后的mask有资格用作搜索功能Ŝ的注意权重如下：
在这里插入图片描述
其中⊗是广播元素的乘积。凭借空间注意力，增强的搜索功能Ŝ（mask）更好地突出了潜在的目标区域。

Feature Transformation. 除了空间上的关注之外，将上下文信息从模板特征T̂传播到搜索特征Ŝ也是可行的。在背景场景倾向于在视频中急剧变化的情况下传达目标表示是有益的，而这在时间上是不合理的。因此，在特征变换之前，我们首先通过T̂ ⊗ M掩盖模板特征以抑制背景区域。然后，使用交叉注意矩阵A，可以通过A（T̂⊗M）∈R计算变换后的特征，将其作为残差项添加到Ŝ中：
在这里插入图片描述
和原来的Ŝ相比，特征级增强的Sfeat集合了一系列模板特征T̂的时间上多样化的目标表示，以进行自我促进。最后，我们将前述的空间mask特征Ŝ (mask)和特征级别增强特征Ŝ(feat)平等地组合在一起，并进一步规范化它们，如下所示：
在这里插入图片描述
将最终输出特征Ŝ(final)∈R重新整形为原始大小，以进行视觉跟踪。我们将Ŝ(final)的重塑形式表示为S(decoded)∈R。

4.4、Tracking with Transformer-enhanced Features

Transformer结构通过生成高质量的模板特征T(encoded)和搜索特征S(decoded)解码。我们通过以下两种流行的范例使用T(encoded)学习跟踪模型：

Siamese Pipeline. 在这种设置下，我们只需将目标特征裁剪为T(encoded)作为模板卷积核，与S(decoded)卷积在一起以生成响应，这与SiamFC中的互相关相同[1]。
DCF Pipeline. 遵循DiMP方法中的端到端DCF优化[3]，我们使用T(encoded)来与S(decoded)卷积以生成响应，来生成具有判别力的卷积核。

在获得跟踪响应之后，我们利用DiMP[3]中提出的分类损失，以端到端的方式联合训练骨干网、我们的Transformer和跟踪模型。详情请参阅[3]。

在在线跟踪过程中，为了更好地利用时间线索并适应目标外观变化，我们会动态更新模板集合T。具体来说，具体来说，我们在T中删除最旧的模板，并每5帧向T添加当前收集的模板特征。特征集合最大可保留20个模板的大小。一旦模板集合T更新，我们将通过Transformer编码器计算出新的编码特征T(encoded)。虽然很少使用Transformer编码器（即每5帧），但Transformer解码器却是在每个帧中加以利用，通过将表示形式和注意线索从先前的模板传播到当前搜索补丁，从而生成每帧S(decoded)。

众所周知，DiMP中的DCF方法[3]优于暹罗语中的简单互相关
跟踪器[1，28]。不过，在实验中，我们显示在我们的变压器架构的帮助下，经典的孪生网络能够对抗最新的DiMP。同时，借助我们的变压器，DiMP跟踪器获得进一步的性能改进。如图10所示，即使强大的基线DiMP [3]已经显示出令人印象深刻的干扰物辨别能力，我们设计的Transformer进一步帮助它抑制背景置信度以实现鲁棒跟踪。

5. Experiments

5.1. Implementation Details

基于暹罗匹配和基于DiMP的跟踪框架，在以下实验中，我们分别提出了我们的Transformer辅助跟踪器TrSiam和TrDiMP，在这两个版本中，主干模型是ResNet-50 [18]用于特征提取。编码器和解码器之前，我们另外添加了一个卷积层（3×3 Conv + BN）减少主干特征通道从1024到512。输入模板和搜索补丁是目标尺寸的6倍，并进一步调整为352×352。3式中的温度τ。设置为1/30。特征掩码中的参数σ设置为0.1。与以前的工作[7、3、9、2]相似，我们利用LaSOT [13]，TrackingNet [39]，GOT-10k [23]和COCO [32]的训练拆分进行离线训练。建议的Transformer网络与原始跟踪部分（例如，跟踪优化模型[3]和IoUNet [9]）以端对端的方式共同训练。我们的框架针对50个epochs进行了训练,每个时期1500次迭代，每批36个图像对。这通过初步学习，使用了ADAM优化器[25]每15个周期的速率为0.01，衰减系数为0.2。
在在线跟踪阶段，主要区别在于TrSiam和TrDiMP在于跟踪模型的生成方式。预测目标位置信息响应图后，他们都采用了最新的概率IoUNet [9]用于目标尺度估算。我们的跟踪器是使用PyTorch在Python中实现的。 TrSiam和TrDiMP在单个Nvidia GTX 1080Ti GPU上分别以每秒35帧和26帧（FPS）的速度运行。

5.2. Ablation Study消融实验

为了验证我们设计的变压器结构的有效性，我们选择带有180个视频的GOT-10k测试集[23]来验证TrSiam和TrDiMP方法1。 GOT-10k隐藏了测试集的真实标签，以避免过度的超参数微调。值得一提的是，GOT-10k的训练和测试集之间的对象类别没有重叠，这也验证了我们的跟踪器对看不见的对象类别的通用性。
在这里插入图片描述

在表1中，基于Siamese和DiMP基线，我们验证了变压器中的每个组件：
Transformer Encoder: 首先，没有任何解码器块，我们仅利用编码器来促进多个模板的特征融合，从而略微改善了两个基准。
Transformer Decoder: 我们的解码器由特征和mask转换器构成，我们来单独验证他们的功能。

(1)特征传播 如表1所示，通过特征转换，在GOT-10k测试装置上，暹罗管道在AO中获得了4.3％的显着性能提升，而强大的DiMP基线在AO中仍获得了1.4％的改进。从训练的角度来看，我们可以观察到该块有效地减少了两个基线的损失，如图6所示。
(2)mask传播 这种机制传播时间上收集的空间注意力以突出显示目标区域。与特征变换类似，仅我们的mask变换也可以稳定地提高跟踪性能
在这里插入图片描述
Complete Transformer: 使用完整的变压器，如表1所示，在AO中，连体和DiMP基准分别获得了5.3％和2.1％的显着性能提升。变压器还大大减少了训练损失（图6）。值得一提的是，DiMP已经取得了出色的成果，而我们的方法不断提高了如此强大的基准。使用我们的变压器，暹罗和DiMP基准之间的性能差距已大大缩小（从4.7％降低到1.5％ AO），它揭示了一个简单的跟踪功能的强大潜力,通过充分探索时间信息来进行管道传输。
Structure Modifications. 最后我们探讨了一下transformers设计的一些详细细节。

Shared-weight Self-attention 由于我们的变压器被分成两个平行的暹罗跟踪分支，因此如表2所示，如果没有重量共享机制，性能会明显下降。由于这种重量共享设计，我们也不会像传统变压器那样堆叠多个编码器/解码器层 [47]，它将模板和搜索表示划分为不同的特征子空间。
Feed-forward Network 前馈网络是经典变压器[47]的基本组成部分，它由两个重量级的全连接层组成。在跟踪方案中，我们观察到该块由于其过多的参数而可能导致过度拟合的问题，这不会带来性能提升，也不会损害效率。
Head Number. 经典变形金刚采用多头注意力（例如8头）来学习各种表示形式[47]。在实验中，我们观察到增加磁头数量会稍微提高精度，但会阻碍实时跟踪效率。因此，我们选择单头注意力以实现性能和效率之间的良好平衡。

5.3. State-of-the-art Comparisons

我们将我们提出的TrSiam和TrDiMP追踪器与最新的最新追踪器在七个追踪基准上进行了比较，其中包括TrackingNet [39], GOT-10k [23],LaSOT [13], VOT2018 [26], Need for Speed [24], UAV123[37], and OTB-2015 [58].
在这里插入图片描述

TrackingNet [39] TrackingNet是最近发布的大型规模基准。我们在测试集上评估我们的方法TrackingNet，其中包含511个视频。在这个标准上，我们将我们的方法与最新技术进行比较跟踪器，例如DiMP-50 [3]，D3S [34]，SiamFC ++ [59]，Retain-MAML [49]，DCFST [64]，PrDiMP-50 [9]，KYS[2]和Siam-RCNN [48]。如表3所示，拟议的TrDiMP达到83.3％的标准化精度评分和78.4％的成功评分，超过了诸如PrDiMP-50和KYS之类的最新技术。注意到PrDiMP和KYS通过概率回归和跟踪场景探索改进了DiMP跟踪器，代表了当前在多个数据集上的领先算法。使用我们设计的变压器，简单的连体式匹配基线（即TrSiam）也显示了出色的拥有82.9％的标准化精度得分和成功分数为78.1％。
GOT-10k [23] GOT-10k是包含10,000多个视频的大规模数据集。我们在具有180个序列的GOT-10k测试集上测试了我们的方法。 GOT-10k的主要特征是，测试集在对象类别中与火车集没有重叠，该训练集旨在评估视觉跟踪器的通用性。遵循GOT-10k的测试协议，我们仅使用GOT-10k训练套件进一步训练了跟踪器。如表4所示，在公平的比较情况下（即，没有其他培训数据），我们的TrDiMP和TrSiam仍然优于其他性能最高的跟踪器，例如SiamR-CNN [48]，DCFST [64]和KYS [2] ]，从而验证了我们的方法对看不见的对象的强大概括。
LaSOT [13] LaSOT是最近的大规模跟踪基准，包含1200个视频。该基准的平均视频长度约为2500帧，这比以前的短期跟踪数据集更具挑战性，因此，如何使用时间上下文应对急剧的目标外观变化在该数据集中至关重要。我们用280个视频在LaSOT测试设备上评估了我们的方法。最新技术的精度和成功图显示在图7中，其中最近提出的C-RPN [14]，SiamRPN ++ [28]，ATOM [7]，DiMP-50 [3]和包括PrDiMP-50 [9]进行比较。我们的TrSiam和TrDiMP大大优于上述方法。据我们所知，SiamR-CNN [48]在LaSOT上达到了目前最好的结果。总体而言，与SiamR-CNN（64.8％AUC和4.7 FPS）相比，我们的TrDiMP（63.9％AUC和26 FPS）表现出非常有竞争力的性能和效率。
在这里插入图片描述

Figure7. LaSOT测试集上的精度和成功图[13]。在图例中，距离精度（DP）和曲线下面积（AUC）分别在左图和右图中报告。

VOT2018 [26] VOT2018基准测试包含60个具有挑战性的视频。使用预期平均重叠（EAO）评估此数据集的性能，该平均重叠考虑了准确性（成功帧上的平均重叠）和鲁棒性（失败率）。如图8所示，我们的TrSiam和TrDiMP明显胜过VOT2018上的所有参与者跟踪器。
在这里插入图片描述
Figure 8. 预期平均重叠（EAO）图，跟踪器从右到左排列。我们的TrDiMP和TrSiam追踪器在VOT2018上的表现优于所有参与者追踪器[26]。

In Table 10，我们进一步显示了最近表现最佳的跟踪器（包括SiamRPN ++ [28]，DiMP-50 [3]，PrDiMP-50 [9]，Retain-MAML [49]，KYS）的准确性，鲁棒性和EAO得分 [2]和D3S [34]。与最近提出的方法相比，我们的TrDiMP方法仍然显示出令人满意的结果。在所有比较的跟踪器中，只有D3S略胜于我们的TrDiMP，后者使用带有分段注释的附加数据进行了训练，可以进行准确的mask预测。
在这里插入图片描述
table10. VOT-2019上最先进方法的准确性（A），鲁棒性（R）和预期平均重叠（EAO）[27]。

NfS [24] NfS数据集包含100个具有快速移动物体的具有挑战性的视频。我们在30 FPS版本的NfS上评估TrSiam和TrDiMP。表5中显示了比较方法的AUC得分。我们的方法在该基准上创下了最新记录。拟定的TrDiMP超越了以前性能最高的跟踪器，例如DCFST [64]和SiamR-CNN [48]。请注意，最近的SimR-CNN使用功能强大的ResNet-101进行对象重新检测。我们简单的TrSiam，没有复杂的模型或在线优化技术，仍然优于现有方法，并且可以实时运行。
在这里插入图片描述
UAV123 [37] 该基准包括低空无人机平台收集的123个航拍视频。与表5中最新的显着方法相比，拟议的跟踪器也取得了可喜的结果。具体而言，我们的TrDiMP与PrDiMP-50 [9]的性能相当，PrDiMP-50代表了该基准测试中的当前最佳算法。

OTB-2015 [58] OTB-2015是一个受欢迎的跟踪平台，标记100个具有挑战性的视频。如表5所示，在此数据集上，我们的TrDiMP的AUC得分为71.1％，超过了最近提出的SiamRPN ++ [28]，PrDiMP-50 [9]，SiamR-CNN [48]和KYS [2]。随着拟议的变压器，我们基于暹罗匹配的TrSiam相对于现有的最新技术也表现出色的AUC得分为70.8％的方法。

6. Conclusion

在这项工作中，我们将转换器结构引入跟踪框架，该框架将视频流中的孤立帧桥接起来，并在帧之间传递丰富的时间提示。我们表明，通过仔细修改经典的变压器架构，它非常适合跟踪情况。借助提出的互感器，两个流行的跟踪器获得了持续的性能改进，并在流行的跟踪数据集上设置了多个新的最新记录。据我们所知，这是在跟踪社区中首次利用互感器的尝试。揭示了隐藏在逐帧关系中的跟踪潜力。将来，我们打算进一步探索各个视频帧之间的丰富时间信息。
致谢。这项工作部分得到了中国国家自然科学基金会的61836011、61822208和61836006号合同的支持，部分得到了中科院青年创新促进协会的资助（2018497）。

A. Ablation Study

A.1. Hyper-parameters

在在线跟踪阶段，唯一涉及的超参数是模板采样间隔以及模板集合大小。如表7所示，我们观察到每5帧对模板进行一次采样显示出令人鼓舞的结果。这种稀疏更新机制还被许多以前的跟踪器（例如ECO [8]和ATOM [7]）广泛采用。此外，增加存储器大小（即，模板集合T中的总样本数）也稳定地提高了性能。为了在性能和效率之间取得良好的平衡，我们选择最大集合大小为20。
至于其他与跟踪相关的超参数，我们遵循基线方法DiMP [3]而不作任何修改。更多详细信息可以在源代码中找到。
在这里插入图片描述
table7 模板采样间隔和模板集合大小的消融实验。测试方法是我们的TrSiam。在GOT-10k测试装置[23]和NfS [24]上根据AUC分数评估了性能。

A.2. Improvements upon Baselines

在表8和表9中，我们将TrSiam和TrDiMP及其对应的基线与七个跟踪基准进行了比较。如表8所示，我们设计的变压器在七个跟踪数据集上不断提高了暹罗基线。例如，就具有挑战性的GOT-10k，NfS，LaSOT和TrackingNet数据集的AUC分数而言，我们的TrSiam方法的性能分别比其基线高5.3％，4.7％，3.3％和3.0％。在OTB-2015数据集上，我们的方法仍将基线提高了1.6％。众所周知，近年来OTB-2015数据集已高度饱和。请注意，我们的暹罗基准已经在OTB-2015上达到了69.2％AUC的高性能水平。因此，相对难以在此基准上获得显着的性能提升。

在表9中，我们进一步展示了变压器辅助TrDiMP与基线DiMP之间的比较结果[3]。值得一提的是，DiMP方法已经引入了一种内存机制来增量更新跟踪模型并在某种程度上探索时间信息。此外，我们的基准线包括最新的概率IoUNet [9]，用于精确的目标规模估计，并采用了较大的搜索区域（目标对象的6倍）进行跟踪（例如，SuperDiMP设置2），这大大优于本文中介绍的标准DiMP方法 [3]。众所周知，改善强大的基准更具挑战性。尽管我们的基准在各种跟踪基准上均取得了出色的结果，但我们建议的变压器在所有数据集上均不断地对其进行了改进。
在这里插入图片描述
Table8.有和没有我们的变压器的暹罗管道在7个跟踪基准上的比较结果。我们在VOT2018中计算相对增益，而在其余数据集中显示绝对增益。

在这里插入图片描述
Table9.在没有和有我们的变压器的情况下，DiMP管道在7个跟踪基准上的比较结果。我们在VOT2018中计算相对增益，而在其余数据集中显示绝对增益。

B. Visualization

B.1. Attention Visualization

如图9（a）所示，在self-attation之后，像素从其相邻像素中获得了一些较小的权重以增强自身。在解码过程中，如图9（b）所示，两个不同补丁之间的交叉注意矩阵很稀疏，这意味着查询会寻找几个最相关的关键字来传播上下文。在Softmax之后，Bolt2序列中的类似运动员没有将注意力权重平均，这说明我们的注意力块可以在一定程度上区分干扰因素，通过这种（特征/遮罩）传播，跟踪响应是准确的，如图10所示。
在这里插入图片描述

B.2. Response Visualization

在图10中，我们展示了跟踪框架的更详细的可视化结果。从图10（第二列）中，我们可以观察到基线（即DiMP [3]）在具有挑战性的场景中会因干扰物体而被误导。通过采用特征变换机制（图10中的第三列），有效地增强了搜索区域中的目标表示，从而简化了对象搜索过程。因此，极大地限制了背景区域的响应值。遮罩转换块将空间注意力从先前的模板传播到当前的搜索区域，这也有效地抑制了背景对象（图10的第四列）。最终，我们完整的转换器架构结合了特征转换和蒙版转换，最终的响应图（图10中的最后一列）对于对象跟踪更加健壮。
在这里插入图片描述
DiMP基线的跟踪响应图的可视化[3]。 “w/o Transformer””表示基线方法DiMP [3]。 “w/ Feature”表示具有基于特征传播的变压器的基线。 “ w / Mask”代表基于掩模传播的变压器的基线。最后，“ w / Transformer”是我们完整的变压器辅助跟踪器，即TrDiMP。我们提出的组件（功能和蒙版转换）有效地抑制了背景响应。

C. Results on VOT2019

VOT2019 [27]是最近发布的具有挑战性的基准，它将VOT2018 [26]中的12个简单视频替换为12个更困难的视频。我们将我们的方法与VOT2019上一些表现最好的方法进行了比较。表10显示了不同跟踪器的准确性，鲁棒性和EAO得分。与DiMP-50相比，我们的TrDiMP显示跟踪精度相似，但故障率要低得多（例如，稳健性得分）。与其他最近使用ResNet-50骨干的深度跟踪器相比，我们的TrDiMP大大超过了它们，例如SiamRPN ++，SiamDW [63]和SiamMask [56]。 VOT2019挑战赛冠军（即DRNet）的EAO得分为0.395 [27]。总体而言，拟议的TrDiMP的EAO得分为0.397，超过了目前表现最好的跟踪器。

D. Failure Case

当目标对象被遮挡或不可见时，当前框架和历史模板之间的交叉注意图将不准确。 因此，我们的框架难以处理沉重的遮挡（例如图11）或视线不佳。我们工作的另一个潜在限制是注意力矩阵的高计算内存，这也是转换器中的常见问题。
在这里插入图片描述

E. Attribute Analysis

最后，在图12中，我们提供了LaSOT [13]基准测试的属性评估。在LaSOT上，我们的方法在各种情况下都显示出良好的效果，例如运动模糊，背景混乱，低分辨率和视点改变。如表8所示，对于拟议的变压器，我们的TrSiam优于其基线3.3％AUC。应注意的是，我们的简单TrSiam没有采用复杂的在线模型优化技术，该技术比诸如DiMP [ 3]和PrDiMP [9]。
在这里插入图片描述

奋斗的校长

关注

5
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
Transformer Meets Tracker: Exploiting Temporal Context for Robust Visual Tracking翻译

Transformer Meets Tracker: Exploiting Temporal Context for Robust Visual Tracking摘要一、介绍2、相关工作3.回顾跟踪框架4、视觉跟踪Transformer4.1、Transformer概述4.2、Transformer Encoder4.3、Transformer Decoder4.4、Tracking with Transformer-enhanced Features5. Experiments5.1. Implement
复制链接

扫一扫