先贴一个算法整体框架图:
Abstract
问题背景:Transformer架构得益于其有效的注意力机制已经在目标跟踪领域展示了巨大的优势。
提出问题:现有的Transformer追踪器都采用了在拉展的图像特征上进行的逐像素注意力策略,不可避免地忽略了目标的完整性。
本文做法:提出一个带有多尺度循环移位窗口注意力的Transformer架构 CSWinTT,将注意力机制从像素级别提升至窗口级别。
本文优势:交叉窗口多尺度注意力(cross-window multi-scale attention)有助于集成不同尺度的注意力并为跟踪目标生成最好的细粒度匹配。进一步,循环移位策略(the cyclic shifting strategy)通过带有位置信息的窗口采样提升跟踪精度,同时通过移除冗余的计算提升跟踪效率。
实验结果:在VOT2020, UAV123, LaSOT, TrackingNet, GOT-10k数据集上的实验结果验证了本文算法的性能。
1. Introduction
跟踪背景:视觉目标跟踪VOT是计算机视觉领域中的基础问题之一,其在视频监控、自动驾驶汽车、 人机交互等领域均有着广泛地应用,其旨在估计每个视频帧中目标的位置,常由包含目标的边界框表示。
提出问题:大部分流行的跟踪器采用Siamese网络结构,通过计算模板和搜索区域的相似性来指导跟踪任务。Siamese网络中采用的互相关操作用于度量相似性,但由于其为单阶段线性计算过程易于丢失语义信息。通过使用注意力机制学习全局上下文可缓解该问题。最近,因为 Transformer 具有强大的交叉注意机制来进行patches之间的推理,其在图像识别,目标检测,语义分割等任务都实现了SOTA。特别地,transformer trackers通过引入注意力机制在混合目标特征上展示了巨大的优势。然而,这些transformer trackers仅在模板和搜索区域间flattened特征上以像素级别求取注意力,每个像素(a flatteded feature/Query)以无序的方法匹配所有像素(another flattened feature/Key)。逐像素的注意力毁坏了目标的完整性,并损失了像素间相对位置的信息。
2. Related Work
Visual object trakcing:
现存的目标跟踪算法可被粗略地分为2类:(1)相关滤波CF方法,探索卷积理论并在傅里叶域通过在目标附近循环移位patches来训练一个滤波器用于区分背景和目标;(2)深度学习方法,常用一个卷积骨干网络提取特征并用过分类head定位目标。
近期,跟踪算法常用Siamese网络架构,其包含2个分支:一个用于模板一个用于搜索区域,他们的相似性用互相关操作来衡量。然而,该策略无法有效提取模板和搜索区域间的语义相似性。
Visual transformer:
Transformer的背景:Vaswani等人首次提出Transformer架构用于处理NLP中的长时依赖。Transformer中的基本结构是注意力模块,其将一个序列作为输入并衡量序列中不同部分的相关性。Transformer不仅包含单个输入的自注意力也计算不同输入间的互注意力。ViT先将transformer引入图像识别领域,自此,transformer广泛地应用在图像分类,目标检测,语义分割,目标跟踪等领域。
本文和Swin Transformer差异:Swin Transformer提出了一个带有移位窗口的层级结构,并在COCO目标检测和ADE20K语义分割数据集上实现了SOTA。本文和Swin Transformer的三大差异:
Swin Transformer | 本文 | |
(1)注意力应用的地方不同 | 划分图像为各个窗口,然后计算每个窗口内部的像素注意力。 | 在特征图上做窗口划分,计算每个窗口间的注意力,这里将每个窗口看作一个整体。 |
(2)多尺度策略不同 | 在每个层用同样的窗口尺寸,并在更深的层合并窗口以形成更大的窗口。 | 以不同的窗口尺寸作为heads用于多尺度匹配。 |
(3)窗口移位的应用不同 | 在整个特征图上移位,以交换信息并提供不同窗口的连接性。 每个窗口只移位一次。 | 以不可交换的方式在每个窗口中应用独立的循环移位。 每个窗口根据其尺寸移位多次。 |
基于Transformer的跟踪算法:TrDiMP, TransT, STARK
3. Method
CSWinTT分为3大部分,其整体流程图如下图所示:
接下俩就上图中的细节进行一一解释。
3.1 Multi-Scale Cyclic Shifting Window Attention
multi-scale window partition:
多尺度窗口划分的流程如下图所示:
multi-head attention:
常见多头注意力机制公式,这里不具体介绍。
cyclic shifting strategy: 见下图
3.2 Efficient Computation
Spatially regularized attention mask:见下图
Computational optimization:
动机:循环移位操作极大地增加了计算代价,为了提升计算效率,提出了3种优化策略:
- 去除query的循环移位;
- 减半重复的移位周期;
- 采用矩阵平移的编程优化
3.3 Tracking with Window Transformer
具体操作:
多头注意力的head个数 | 8 |
对应的窗口大小对应的窗口大小 | [1,2,4,8,1,2,4,8] |
模板个数 | 实际采用了2个模板。一个固定为初始帧的模板,另一个由STARK的score head确定的不断更新的模板。 |
训练损失 | 5*l1+2*giou |
4. Experiments
4.1 Implementation Details
训练数据集 | LaSOT, GOT-10k, TrackingNet |
数据增强 | brightness jitter, horizontal flip等 |
图像大小 | 模板:128*128; 搜索区域:384*384 |
参数初始化 | ResNet50在ImageNet上预训练,其他参数用Xavier初始化 |
训练参数 | AdamW优化器,初始lr=1e-5 for backbone, lr=1e-4 for 其他参数,600 epochs,每个epoches用了4*10^4张图像,mini-batch size为64 |
硬件 | 2个Nvidia Tesla T4 GPUs |
在线跟踪速度 | 12 FPS on a single GPU |
4.2 State-of-the-art Comparison
对比算法包括:UAV123, LaSOT, TrackingNet, GOT-10k, VOT2020
4.3 Ablation Study
Effects of different components in our method.
Different window sizes for our transformer.
Computation optimization and speed analysis.
4.4 Qualitative Analysis