Motivation
现有的孪生跟踪算法大多是基于相似得分图对目标对象进行分类和回归,使用单一的相似图会降低复杂场景下的定位精度,而像 SiamRPN++ 那样单独使用多个相似图分别进行预测又会引入较大计算负担,不适用于移动设备。因此,本文提出一种 hierarchical feature transformer (HiFT) 对多个层级的相似图进行融合,既可以捕获全局的依赖关系,又可以高效地学习多层级特征之间的依赖关系。
在介绍本文方法前,我们先分析经典的 transformer 架构应用于目标跟踪任务中的难点。
- 预定义的 (或学习的) 解码 query 在面对任意跟踪对象时很难保持有效性;
- transformer 难以处理小目标(参考 deform DETR)。
Method
图 2 为整体框架,分成特征提取,transformer 和预测头三部分。特征提取采用高效的 alexnet,最后三层特征输入到 transformer 中,预测头采用类似 FCOS 的三分支预测(分类、回归、定位质量)。下面详细介绍本文提出的 Hierarchical Transformer。
Hierarchical Feature Transformer
HiFT 包含高分辨率特征编码和低分辨率特征解码,前者学习不同特征层和空间信息之间的相互依赖关系,以提高对不同尺度 (特别是低分辨率) 目标的关注;而后者聚合了来自低分辨率深层特征的语义信息。这种全局上下文和层次特征之间的相互依赖大大提升了对复杂跟踪场景的适应能力。
transformer 的输入是三层不同尺度的互相关相似图,如公式 1 所示。图 3 中的和则是加上了位置编码。
Feature Encoding
首先对和进行相加和归一化的融合,得到 ;然后经过 multi-head attention 得到,attention 矩阵中同时包含了和的多尺度信息,注意这里 MHA 中 Q, K, V 的输入差异;
此外还额外增加了一个调制层 (modulation layer),探索和之间的空间信息。
Feature Decoding
decoder 部分和标准的 transformer 类似,差别在于输入的查询向量不是预定义的 query,而是低分辨率的特征,并且无需位置编码。
作者在实验中堆叠了一个编码和两个解码结构。
Experiments
Evaluation on Aerial Benchmarks
本文的应用环境是无人机跟踪,所以测试数据集均在无人机数据集测试。
Ablation Study
图 5 中 OT 表示标准 transformer 结构,FT 表示用特征取代解码器中的 object query,PE 表示在解码输入中加入位置编码,RL 表示在 GT 的矩形框内采样正样本(本文用的椭圆采样策略)。可以看到,OT 使得性能下降,证明预定义的 object query 不适用于目标任意的跟踪任务;增加了 PE 后相比不用 PE 性能大幅下降;使用 RL 性能同样大幅下降,这样看上去似乎 label assign 策略的影响都要大于 HFT 了。
图 5 展示了本文方法在快速运动、低分辨率和遮挡等场景均可以更聚焦目标。
速度一骑绝尘,大于 100FPS,并且使用 alexnet 的性能超过了很多 resnet50 的算法。并且作者在嵌入式平台 NVIDIA AGX Xavier 中实验也达到了 31.2FPS (未使用 tensorrt),非常适合应用。