论文链接:https://arxiv.org/abs/2112.00995
代码链接:https://github.com/LitingLin/SwinTrack
文章侧重点
- 以目标检测领域的Swin Transformer为基础,构建全Transformer结构的目标追踪算法——Swin-Track
- 构建了Motion Token 在追踪中考虑到了目标运动信息,在增加计算复杂度的情况下提升性能。
- 将原有的Transformer中的absolute位置编码替换成untied positional encoding。
- 用varifocal loss替换交叉熵损失函数。
网络结构
- 输入:当前帧图片(裁剪尺度=4)、目标模板(裁剪尺度=2)
- Transformer-based Feature Representation Extraction:
- 该部分是特征提取部分,用到了Siamese-based的网络结构,旨在提取相同特征空间下的目标模板特征和Search Region的特征。便于之后目标融合。
- 论文中的实验用的是Swin Transformer-Tiny( pre-trained with ImageNet-1k)和Swin Transformer-Base(pre-trained with ImageNet-22k)作为特征提取网络。
- Transformer-based Feature Fusion:
特征融合一共有两步:Vision特征融合(Encoder的实现)+运动特征融合(Decoder的实现)。
Vision特征融合:- 将目标模板特征和Search Region的特征拼接为 f m f_m fm作为输入。
- 沿用了Transformer中的Encoder结构:Layer Norm (LN) + Multi-layers Self Attention (MSA) + Feed Forward Network (FFN)。这里直接用Self-Attention完成了特征增强和特征交互。
- 公式表达:
最后一步DeConcat直接将特征分离,就可以得到Search Region的特征。
运动特征融合:
- Motion Token Construction :
- 构建运动信息的Motion Token。将目标的历史轨迹表示为边界框(左上角坐标+右下角坐标,即x1y1x2y2)的集合: o s 1 = ( o s 1 x 1 , o s 1 y 1 , o s 1 x 2 , o s 1 y 2 ) o_{s_1}={(o_{s_1}^{x_1},o_{s_1}^{y_1},o_{s_1}^{x_2},o_{s_1}^{y_2})} os