背景
现有的双流网络,双阶段跟踪网络分别提取模板特征和搜索区域的特征,因此提取的特征缺乏对目标的关注,目标背景判别力有限
创新点
- 通过结合特征提取和关系建模,提出一个简单高效的一流程,一阶段跟踪框架;
- 候选区域消除模块,用来提高模型的推理速度;
- 大量实验证明,SOTA,并且具有较高的推理速度和收敛速度。
方法
1 Joint Feature Extraction and Relation Modeling
- 输入的图像对为图像进行分裂并展平成的patches对,template image patch Z ( 3 ∗ H ∗ W ) Z(3*H*W) Z(3∗H∗W),搜索区域 X X X
- 经过一个参数可学习的线性映射层和参数可学习的position embeddings
- 然后concatHz和Hx,作为encoder的输入
- 对关系建模的解释:
中间层的可视化
2 Early Candidate Elimination
- 针对相似度得分比较低的候选X,进行删除,相似度得分为:
where qi, Kz, Kx and V denote the query vector of token hz, the key matrix corresponding to the template, the key matrix corresponding to the search region and the value matrix.
M:multi head的头数
Candidate Restoration
作用:做的padding,用于恢复原图片。
Head and Loss
Head:堆叠了4个FCN层
Loss:采用的是分类和回归损失
Experiments