单目标追踪——【Transformer】Autoregressive Visual Tracking

最新推荐文章于 2025-02-12 16:18:29 发布

zz的大穗禾

最新推荐文章于 2025-02-12 16:18:29 发布

阅读量1.4k

点赞数 3

分类专栏： SOT 论文阅读文章标签：计算机视觉目标跟踪

本文链接：https://blog.csdn.net/qq_42312574/article/details/132583133

版权

本文介绍了一种基于ARTrack的视觉追踪方法，利用目标运动信息辅助定位。通过Transformer架构的Encoder和Decoder处理视觉特征和运动特征，实验表明适当的历史帧长度和坐标范围对性能有积极影响。消融实验探讨了N（历史帧长度）和VocabularyBins对追踪性能的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章侧重点

ARTrack 利用目标先前帧的预测位置，建模目标运动信息来辅助当前的目标追踪定位。原本的基于帧的追踪任务（次最优化）变成了序列追踪任务（最优化），这一点与目标追踪本身的定义一致。
端到端的实现，没有预测头和后置操作。
受到Pix2Seq的启发，利用相似的构建离散的坐标体系与Vision feature一同输入后续的Decoder。
与先前SwimTrack将目标运动信息作为特征输入Decoder再借助Head输出定位相比，ARTrack 旨在用先前的轨迹教会模型如何进行输出（这点与Pix2Seq一致），直接借助Decoder回归出目标的位置。

请添加图片描述该网络一共有两个组成部分：Encoder（Vision Feature的特征提取融合）+ Decoder（Vision Feature+Motion Feature 特征融合与输出）

图取自ViT
请添加图片描述

输入：模板图片、包含历史帧和当前帧的序列图片们
沿用了ViT encoder作为backbone，与OStrack一致：
- Search Regions和Template进行patch embeding生成Patches
- 针对Search Region Patches和Template Patches分别进行flatten并映射生成一个token embeddings的序列。
- 加上位置编码，再将两个tokens拼接起来，送入ViT backbone（encoder的操作和原始Transformer中完全相同）得到编码后的Vision Features。
输出：特征融合后的Vision Features