目录
论文链接:https://paperswithcode.com/paper/autoregressive-visual-tracking
代码链接:https://github.com/miv-xjtu/artrack
文章侧重点
- ARTrack 利用目标先前帧的预测位置,建模目标运动信息来辅助当前的目标追踪定位。原本的基于帧的追踪任务(次最优化)变成了序列追踪任务(最优化),这一点与目标追踪本身的定义一致。
- 端到端的实现,没有预测头和后置操作。
- 受到Pix2Seq的启发,利用相似的构建离散的坐标体系与Vision feature一同输入后续的Decoder。
- 与先前SwimTrack将目标运动信息作为特征输入Decoder再借助Head输出定位相比,ARTrack 旨在用先前的轨迹教会模型如何进行输出(这点与Pix2Seq一致),直接借助Decoder回归出目标的位置。
网络结构
该网络一共有两个组成部分:Encoder(Vision Feature的特征提取融合)+ Decoder(Vision Feature+Motion Feature 特征融合与输出)
Encoder(特征提取与融合得到Vision Features)
图取自ViT
- 输入:模板图片、包含历史帧和当前帧的序列图片们
- 沿用了ViT encoder作为backbone,与OStrack一致:
- Search Regions和Template进行patch embeding生成Patches
- 针对Search Region Patches和Template Patches分别进行flatten并映射生成一个token embeddings的序列。
- 加上位置编码,再将两个tokens拼接起来,送入ViT backbone(encoder的操作和原始Transformer中完全相同)得到编码后的Vision Features。
- 输出:特征融合后的Vision Features
Decoder(Vision Feature+Motion Feature 特征融合与输出)
运动特征生成
历史轨迹的量化一共有两个步骤:坐标值离散化和坐标映射。
- 坐标值离散化
- 历史帧中的目标定位例如: [ x m i n , y m i n , x m