单目标追踪——【Transformer】SwinTrack: A Simple and Strong Baseline for Transformer Tracking

论文链接:https://arxiv.org/abs/2112.00995
代码链接:https://github.com/LitingLin/SwinTrack

文章侧重点

  1. 以目标检测领域的Swin Transformer为基础,构建全Transformer结构的目标追踪算法——Swin-Track
  2. 构建了Motion Token 在追踪中考虑到了目标运动信息,在增加计算复杂度的情况下提升性能。
  3. 将原有的Transformer中的absolute位置编码替换成untied positional encoding。
  4. 用varifocal loss替换交叉熵损失函数。

网络结构

请添加图片描述

  • 输入:当前帧图片(裁剪尺度=4)、目标模板(裁剪尺度=2)
  • Transformer-based Feature Representation Extraction
    1. 该部分是特征提取部分,用到了Siamese-based的网络结构,旨在提取相同特征空间下的目标模板特征和Search Region的特征。便于之后目标融合。
    2. 论文中的实验用的是Swin Transformer-Tiny( pre-trained with ImageNet-1k)和Swin Transformer-Base(pre-trained with ImageNet-22k)作为特征提取网络。
  • Transformer-based Feature Fusion
    特征融合一共有两步:Vision特征融合(Encoder的实现)+运动特征融合(Decoder的实现)。
    Vision特征融合:
    1. 将目标模板特征和Search Region的特征拼接为 f m f_m fm作为输入。
    2. 沿用了Transformer中的Encoder结构:Layer Norm (LN) + Multi-layers Self Attention (MSA) + Feed Forward Network (FFN)。这里直接用Self-Attention完成了特征增强和特征交互。
    3. 公式表达:
      请添加图片描述最后一步DeConcat直接将特征分离,就可以得到Search Region的特征。

运动特征融合:

  1. Motion Token Construction
  • 构建运动信息的Motion Token。将目标的历史轨迹表示为边界框(左上角坐标+右下角坐标,即x1y1x2y2)的集合: o s 1 = ( o s 1 x 1 , o s 1 y 1 , o s 1 x 2 , o s 1 y 2 ) o_{s_1}={(o_{s_1}^{x_1},o_{s_1}^{y_1},o_{s_1}^{x_2},o_{s_1}^{y_2})} os
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值