Transformer这个香饽饽怎么能不用来迁移到目标追踪里呢。
本篇博客分析STARK。文中若有错误敬请指出。
文章侧重
这篇文章提出了一个端到端的Transformer架构,一共有两个具体实现的网络结构——Baseline网络【仅考虑空间特征】+ST网络【同时考虑时序和空间特征】
几个值得注意的点:
- 由于Encoder的输入是Search Region和Template的Feature按channel连接,那么Ecoder自注意力机制进行特征增强时,已经相当于对Search Feature和Template Feature进行交叉注意力处理了。
- Decoder的输入是Encoded Feature和目标query,学习一个与目标有关query来预测目标位置,作为边界框预测Head的输入。
- 将目标跟踪建模成一个直接的边界框预测问题。用一个全卷积网络预测左上与右下角点响应图,每帧直接得到一个最优的边界框,彻底摆脱了之前复杂且对超参敏感的后处理操作【如余弦窗口、边界框平滑】。
网络结构
STARK-S网络——仅空间建模
网络组成部分:
- Backbone网络:针对Search Region和Template分别生成特征图。这里采用了ResNet的前四个stage的网络。
- Encoder:首先对传入的特征预处理——利用一个bottleneck层降低channel数1024→256;然后Search特征和Template特征按空间维度展平如下所示。相当于d个一维向量,向量长度为 H x ∗ W x + H z ∗ W z H_x*W_x+H_z*W_z Hx