单目标追踪——【Transformer】Learning Spatio-Temporal Transformer for Visual Tracking


Transformer这个香饽饽怎么能不用来迁移到目标追踪里呢。
本篇博客分析STARK。文中若有错误敬请指出。

Learning Spatio-Temporal Transformer for Visual Tracking

文章侧重

这篇文章提出了一个端到端的Transformer架构,一共有两个具体实现的网络结构——Baseline网络【仅考虑空间特征】+ST网络【同时考虑时序和空间特征】
几个值得注意的点:

  1. 由于Encoder的输入是Search Region和Template的Feature按channel连接,那么Ecoder自注意力机制进行特征增强时,已经相当于对Search Feature和Template Feature进行交叉注意力处理了。
  2. Decoder的输入是Encoded Feature和目标query,学习一个与目标有关query来预测目标位置,作为边界框预测Head的输入。
  3. 将目标跟踪建模成一个直接的边界框预测问题。用一个全卷积网络预测左上与右下角点响应图,每帧直接得到一个最优的边界框,彻底摆脱了之前复杂且对超参敏感的后处理操作【如余弦窗口、边界框平滑】。

网络结构

STARK-S网络——仅空间建模

在这里插入图片描述
网络组成部分:

  • Backbone网络:针对Search Region和Template分别生成特征图。这里采用了ResNet的前四个stage的网络。
  • Encoder:首先对传入的特征预处理——利用一个bottleneck层降低channel数1024→256;然后Search特征和Template特征按空间维度展平如下所示。相当于d个一维向量,向量长度为 H x ∗ W x + H z ∗ W z H_x*W_x+H_z*W_z Hx
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值