Compact Transformer Tracker with Correlative Masked Modeling（CTTrack）学习笔记-CSDN博客

本文链接：https://blog.csdn.net/qq_43437453/article/details/131000465

Compact Transformer Tracker with Correlative Masked Modeling

论文地址：https://arxiv.org/pdf/2301.10938

动机：

这篇论文试图解决视觉目标跟踪中的信息聚合问题，通过对注意力机制及自注意力机制的分析，证明了基础的自注意力机制是足够进行信息聚合的，不需要进行结构上的调整。同时，文章提出了一种基于自注意力机制的紧凑型转换跟踪器，并采用相关的掩蔽建模策略来增强模型的信息聚合能力。该转换跟踪器只包含ViT骨干网络和边界框头，且实现速度可达40 fps。通过在五个具有挑战性的数据集上的实验，该跟踪器表现出优于现有方法的表现，并证明了自注意力在跟踪任务中的充分性。

贡献：

这篇论文的主要贡献在于深入分析了注意力机制在视觉目标跟踪中的作用，并证明了基础自注意力机制足以进行信息聚合，而不需要结构适应。同时，作者提出了一种基于视觉Transformer的紧凑型跟踪器，结合相关的掩模建模方法来增强跟踪器的信息聚合能力，从而实现了高速和高准确性的跟踪。作者的实验结果在五个具有挑战性的数据集上均具有最先进的性能表现。此外，作者的掩模解码器还可以插入其他Transformer跟踪器中，以有效提高跟踪性能，而不会影响速度。

Approach

在本节中，我们详细介绍了具有相关掩模建模的紧凑型变压器跟踪器。在继续之前，我们首先对变压器跟踪器的关键部件进行了分析，并证明了现有的注意力变体等同于包装自注意力。

1、Revisiting Transformer Tracker

Transformer tracking framework：

如ViT所述，对查询 $Q$ 、键 $K$ 、值 $V$ 应用查询-键-值注意机制。 $Q 、 K 、 V$ 的线性权重分别为 $W_Q、W_K、W_V$ 。注意力(Attn)的计算公式为：
$\operatorname{Atin}(X)=\operatorname{softmax}(\frac{\mathbf{XW}_Q\cdot\mathbf{W}_K^T\mathbf{X}^T}{\sqrt{d_k}})\cdot\mathbf{XW}_V$
其中 $X$ 是输入标记， $d_k$ 是密钥的维度。为了更清楚地描述后序步骤，我们对两个不同标记的输入应用注意力计算，使用查询计算的令牌 $X_Q$ 和使用键和值计算的令牌 $X_KV$ 。我们修改注意力公式并将注意力图 (AMap) 定义为：
$\begin{gathered} \mathop{\mathrm{Attn}}(\mathbf{X}_{Q},\mathbf{X}_{K V}) =\mathrm{AMap}(\mathbf{X}_Q,\mathbf{X}_{KV})\cdot\mathbf{X}_{KV}\mathbf{W}_V \\ \mathrm{AMap}(X_Q,\mathrm{X}_{KV}) =\operatorname{softmax}(\frac{\mathbf{X}_Q\mathbf{W}_Q\cdot\mathbf{W}_K^T\mathbf{X}_{KV}^T}{\sqrt{d}}) \end{gathered}$
我们的紧凑型变压器跟踪器由两部分组成：用于信息聚合的Transformer主干和用于包围盒估计的盒头。给出初始帧中的模板 $z$ 和搜索图像 $s$ 。我们通过补丁嵌入分别得到令牌 $X_t\in\mathbb{R}^{L_z\times d}和X_s\in\mathbb{R}^{L_s\times d}$ ，其中 $d$ 表示通道数。跟踪域中的**打包自我注意(PSself-Attn)**被定义为具有模板和搜索图像的串联(Cat)输入的自我注意：
$\text{PSelf-At}\mathrm{tn}=\mathrm{At}\mathrm{ln}\Big(Cat(\mathbf{X}_z,\mathbf{X}_s),Cat(\mathbf{X}_z,\mathbf{X}_s)\Big)$

Analysis on Attention

如图2所示，我们将涉及模板和搜索图像的注意力机制的计算划分为四个信息流：

模板的自信息增强；
模板的交叉信息聚合；
搜索图像的交叉信息聚合；
搜索图像的自信息增强。

这四个信息流也反映在关注图的四个部分中(在图2中，关注图中每个部分的索引对应于信息流)。在此基础上，我们可以方便地比较现有注意之间的差异，包括包装自我注意、混合注意和交叉注意。

PSelf-Attn和混合注意本质上是等价的，混合注意计算为:
$\begin{gathered} \mathrm{PSel-Attn==Mix-Attn}= \\ \operatorname{Cat}\Big(\operatorname{AMap}\big(\mathbf{X}_{z},C a t(\mathbf{X}_{z},\mathbf{X}_{s})\big),\operatorname{AMap}\big(\mathbf{X}_{s},C a t(\mathbf{X}_{z},\mathbf{X}_{s})\big)\Big) \end{gathered}$
这与公式3相同，它们包含了所有四个信息流(注意图如图3a所示)。

通过同样的分析，**非对称混合注意(AMix-Attn)**包含三个信息流(#1、#3、#4信息流)，如图3b所示，计算如下:
$\begin{gathered} \mathrm{AMix-Attn}= \\ \operatorname{Cat}\Big(\operatorname{AMap}\big(\mathbf{X}_{z},\mathbf{X}_{z}\big),\operatorname{AMap}\big(\mathbf{X}_{s},C a t(\mathbf{X}_{z},\mathbf{X}_{s})\big)\Big) \end{gathered}$
交叉注意包含两个信息流(#2，#3信息流)，用于交叉信息聚合，如图3c所示，计算方法如下:
$\mathrm{Cross-Atn}=\mathrm{Cat}\Big(\mathrm{AMap}\big(\mathrm{X}_z,\mathrm{X}_s\big),\mathrm{AMap}\big(\mathrm{X}_s,\mathrm{X}_z\big)\Big)$
为了充分验证包装注意的每个部分的重要性，有必要单独评估每个信息流的影响。视觉目标跟踪的关键是在搜索图像中找到目标，必须有一个搜索图像的交叉信息聚合(#3信息流)。可以屏蔽其他信息流以验证它们的性能。

基于以上思路，进行了详细的实验，实验结果如表1所示。

去除自我注意的模板（#2信息流）的交叉信息聚合，可以大大改善跟踪性能（表1#2的AUC和Prec都优于表1#1），而模板的交叉信息聚合会在模板特征中引入大量的噪声，这在视觉跟踪中是不推荐的。

然而，去除自我注意的自我信息增强(#3和#4信息流)严重降低了跟踪性能(表1 #3和#4的AUC和Prec比表1 #1更差)。

从结果可以看出，自信息增强在多图像注意中的作用大于交叉信息聚合，交叉信息聚合在跟踪中是不可缺少的，但作用不大。

2、Correlative Masked Modeling

去除自注意力模板（#2 信息流）的跨信息聚合可以大大提高跟踪性能（表 1#2 的 AUC 和 Prec 优于表 1#1），模板的交叉信息聚合会在模板特征中引入很多噪声，这在视觉跟踪中不推荐。这三种信息流可以分为两类:两种自信息增强和一种交叉信息聚合。我们设计了一种相关的掩模建模方法来增强跟踪框架的信息聚合，如图1所示。

ViT 主干是一个编码器，相关掩码解码器从随机掩码标记重建原始图像（模板和搜索图像），以增强自信息并从搜索标记重建模板图像以改进跨信息聚合。与掩码解码器并行，搜索图像标记经过框估计头，如(Yan et al. 2021)所示，以生成结果边界框。

Decoder

我们框架中的解码器由一个自解码器和一个交叉解码器组成，这两个解码器具有相同的结构但不共享权重，每个解码器由一系列类似于MAE的变压器块组成，解码器的最后一层是一个线性投影，输出通道等于补丁中的像素数量。

如图4所示，解码器以掩码令牌为输入，预测模板令牌和搜索图像令牌对应的原始图像像素，其中模板令牌只自重构到模板图像中以增强#1信息流，搜索令牌用于交叉重构模板图像(对于#3信息流)，并自重构搜索图像(对于#4信息流)。

Masking and Reconstruction

编码器嵌入模板标记和搜索标记的连接集。然后，我们将编码的标记拆分为模板标记和搜索标记，使用精确 RoI Pooling(Jiang et al. 2018) 裁剪搜索标记与模板标记大小相同，并对它们的一个子集进行采样。我们以高掩蔽率(75%)随机抽样令牌。我们的解码器预测每个掩码标记的像素值，解码器的输出被重新整形以形成重建图像。我们使用掩码标记上重建图像和原始图像之间的均方误差 (MSE) 作为我们的损失函数。

3、Training and Inference

我们的解码器仅在训练阶段使用，而不参与推理阶段，因此不影响跟踪速度。在训练阶段，我们的跟踪器接受一个三元组输入，由一个搜索区域和两个类似于STARK的模板组成。我们从训练集中的序列中随机抽取多帧，选择第一帧和第二帧作为模板，最后一帧作为搜索区域。在目标定位训练中，我们以L1损失、广义IoU损失和解码器损失 $L_{dec}$ 的组合以端到端的方式训练除评分头之外的所有网络。完整的损失函数定义如下：
$\begin{aligned} Loss=\lambda_{L1}L_{1}(B_{i},\hat{B}_{i})+\lambda_{g}L_{g}(B_{i},\hat{B}_{i})+\lambda_{d e c}L_{d e c} \\ \end{aligned}$
其中 $λ_{L1} = 5.0，λ_g = 2.0 和 λ_{dec} = 0.3 $是三个损失的加权因子，$ \hat{B_i}$ 是目标的估计框， $B_i$ 是真实边界框。解码器损失 $L_{dec}$ 定义为：
$L_{dec}=L_2(z,z_p)+L_2(s,s_p)+L_2(z,s_p)$
其中 L2 是 MSE 损失，$z $和 $s $分别表示原始模板图像和搜索图像，$ z_p $和 $s_p $分别表示预测模板图像和搜索图像。