Transformer这个香饽饽怎么能不用来迁移到目标追踪里呢。
我计划对CVPR2021的3篇将Transformer引入目标追踪任务的论文进行分析总结。本篇博客分析TrDiMP/TrSiam。
Transformer Meets Tracker:Exploiting Temporal Context for Robust Visual Tracking
文章侧重
这篇文章重点是引入Transformer作为特征提取增强模块。 既是用自注意力对backbone提取的特征进行增强,利用交叉注意力机制使得Template的特征和Search Region的特征交叉增强,有助于后面目标定位。
几个注意点:
- 由于这篇文章只是将Transformer用于增强特征,所以在实验部分,这篇文章分别将该特征模块集成到两个Tracking pipeline中——SiamFC、DiMP,比如目标定位的方法、训练策略、超参数设定就应用这两个框架中本来的设置。
- Ecoder和Decoder都只有一层,摒弃了原有Transformer的堆叠结构,且它们的自注意力机制的参数共享,作者认为这样的设计是为了使输入Encoder和Decoder的patch 映射到相同的特征空间,有利于交叉注意力机制的应用 而多层堆叠会将template feature和search feature映射到不同的特征空间。
- 摒弃了原有Transformer中的前馈神经网络。作者认为前馈神经网络的参数过多可能导致过拟合问题,而在文章的消融实验中证明去除前馈神经网络的模型在测试集上表现更好。
- 摒弃了原有Transformer中的多头注意力机制,只用到单头注意力。因为作者在实验中发现,增加多头机制不会显著改善效率,Head Number从1到4,测试集上AO增加0.6%,速度下降10fps。
网络结构
如图所示,Template Features 【这里的Template实际上有20个,这个参数是在消融实验中验证能达到最高的精度。】 和 Search Features是初步经过Backbone(ResNet50)生成的特征,经过Encoder会生成Encoded Features和目标相关的Masks,再将其作为Decoder的输入,在Search Feature上面利用交叉注意力机制,输出Decoded Feature。
其中,Encoded Features包含了多个Template自注意力的特征增强结果,不同Template的特征也有交叉增强。
Masks是在Template Features上以目标GroundTruth为中心的高斯型mask,为了增强目标的特征,而抑制目标周围相似物体的干扰。
Decoded Feature 是将Template Features、Mask与Search Features进行交叉注意力操作,即使用Template Features、Masks对Search Features进行增强,对Search Features中与目标有关的特征进一步突出。
具体的Encoder和Decoder的结构
如下图:
模型的推理过程
上面的网络结构只包含了特征增强的部分,具体实现中与现有SiamFC【孪生网络框架】、DiMP【相关滤波框架】集成。
- TrSiam:剪裁Encoded Features作为CNN核,与Decoded Feature做互相关(与SiamFC一致)。
- TrDiMP:根据Encoded Features生成一个判别性的CNN核,与Decoded Feature卷积生成响应图。
要QQ每天都开开心心~