Learning Spatio-Temporal Transformer for Visual Tracking（STARK）学习笔记

微醺的水

于 2023-05-31 20:13:48 发布

阅读量359

点赞数 1

分类专栏：目标跟踪文章标签： transformer 目标跟踪计算机视觉深度学习神经网络

本文链接：https://blog.csdn.net/qq_43437453/article/details/130976397

版权

目标跟踪专栏收录该内容

23 篇文章 11 订阅

订阅专栏

Learning Spatio-Temporal Transformer for Visual Tracking

论文地址：https://arxiv.org/pdf/2103.17154

贡献：

1、我们提出了一种新的致力于视觉跟踪的Transformer架构。它能够捕获视频序列中空间和时间信息的全局特征依赖关系。

2、整个方法是端到端的，不需要余弦窗、包围盒平滑等后处理步骤，大大简化了现有的跟踪流水线。

动机：

卷积核不能很好地建模图像内容和特征的长期依赖关系，因为它们只在空间和时间上处理局部邻域。目前流行的追踪器，包括离线的孪生追踪器和在线学习模型，几乎都是建立在卷积运算的基础上。

空间信息和时间信息对于目标跟踪都是重要的。前者包含用于目标定位的对象外观信息，而后者包含对象跨帧的状态变化。

在这项工作中，考虑到全局依赖模型的优越能力，采用transformer来整合时空信息进行跟踪，生成可区分的时空特征用于目标定位。

基本方法：

我们首先介绍了一种简单的基线方法，它直接利用原始的encoder-decoder transformer进行跟踪；该基线方法只考虑了空间信息，取得了令人印象深刻的效果。之后，我们将基线扩展到学习目标定位的空间和时间表征。引入了动态模板和更新控制器来捕捉目标对象的外观变化。

1、A Simple Baseline Based on Transformer

Backbone：

我们的方法可以使用任意卷积网络作为特征提取的主干。在保持通用性的前提下，我们采用了Vanilla ResNet作为主干。更具体地说，除了移除最后一级和完全连接的层外，原始ResNet没有其他更改。

Encoder：

主干的输出特征图在输入编码器之前需要预处理。具体来说，首先使用瓶颈层将通道数从 C 减少到 d。然后将特征地图沿空间维度进行展平和拼接，生成长度为 $\frac{H_z}{s}\frac{W_z}{s}+\frac{H_x}{s}\frac{W_x}{s}$ 、维度为d的特征序列，作为transformer编码器的输入。

编码器捕获序列中所有元素之间的特征依赖关系，并用全局上下文信息加强原始特征，从而允许模型学习用于目标定位的判别特征。

Decoder：

解码器以目标查询和编码器的增强特征序列作为输入。只在解码器中输入一个查询来预测目标对象的一个包围盒。

与编码器类似，解码器堆叠M个解码层，每个层由自我关注、编解码者关注和前馈网络组成。

在编码器-解码器注意力模块中，目标查询可以关注模板和搜索区域特征上的所有位置，从而为最终的边界框预测学习稳健的表示。

Head：

为了提高盒子估计的质量，通过估计盒子角点的概率分布，设计了一种新的预测头。

我们首先从编码器的输出序列中提取搜索区域特征，然后计算搜索区域特征与解码输出嵌入的相似度。接下来，将相似度分数与搜索区域特征进行元素级相乘，以增强重要区域并削弱较不具区分性的区域。

新的特征序列被重塑为 $f\in{R^{d\times{\frac{H_s}{s}\times{\frac{W_s}{s}}}}}$ 的特征映射，然后馈入简单的全卷积网络。FCN 由 L 个堆叠的 Conv-BN-ReLU 层组成，并输出对象边界框左上角和右下角的两个概率图 $P_{tl}(x,y)和P_{br}(x,y)$ ，