动机
- 视觉目标跟踪是计算机视觉中的一项基本任务。尽管最近取得了一些进展,但由于遮挡、变形、外观变化等因素的影响,它仍然是一项具有挑战性的任务。
- 在视频目标跟踪任务中,现有的跟踪器中被忽略了连续帧之间存在着丰富的时间上下文信息。
方法
为了在独立的视频帧之间建立桥梁,并传递丰富的时间线索。提出了一种新的transformer辅助跟踪框架。由于提出的transformer接收图像特征嵌入,共同将这些图像特征嵌入归一化到实例(图片块)级,以保留有价值的图像幅度信息。将transformer编码器和解码器在这样一个通用的类孪生结构内分成两个分支。在顶部分支中,一组模板图片块被馈送到transformer编码器,该编码器通过基于注意力的特征增强来来相互加强多个模板特征,以生成高质量的编码特征。在底部分支中,搜索特征以及先前的模板内容被馈送到transformer解码器,其中搜索图片块从历史模板中检索和聚集信息化的目标线索(例如,空间掩模和目标特征),传递到对应的帧中,以增强自身,方便了目标的搜索过程。编码器和解码器中的自注意力块共享权重,该权重将模板和搜索嵌入在相同的特征空间中,以方便做进一步的交叉注意力计算,从而传播时间上下文(例如,特征和注意力)。对于视觉跟踪场景,效率是至关重要的。为了实现速度和性能的良好平衡,通过省略完全连接的前馈层和主要使用轻量级的单头注意力来简化经典transformer。
Tra