Unified Transformer Tracker for Object Tracking

最新推荐文章于 2024-04-17 15:08:59 发布

wang15771397344

最新推荐文章于 2024-04-17 15:08:59 发布

阅读量151

点赞数

文章标签： transformer 深度学习人工智能目标跟踪

本文链接：https://blog.csdn.net/wang15771397344/article/details/132463409

版权

论文

核心：联合单目标和多目标跟踪

Motivation

问题：跟踪现在分成了单目标（SOT）和多目标（MOT）两个独立的社区。由于两种任务的训练数据集和跟踪对象的不同，使得它们的方法无法互通

现有方法：UniTrack 使用共享的外观模型和多个多个不用训练的跟踪头来处理不同跟踪任务。但是无法利用大规模跟踪数据集进行训练，并且在 SOT 表现较差

本文方法：

提出 Unified Transformer Tracker (UTT) ，构建一个 Transformer Tracker 在 SOT 和 MOT 中跟踪目标，利用目标特征和跟踪帧特征之间的相关性来定位目标；
在各自的数据集上交替优化 SOT 和 MOT，使得一个框架可以同时处理两个任务

Method

首先回顾 SOT 和 MOT 的定义：

SOT—— 给定一个初始帧目标位置 B0，定位后续 T 帧中该目标的位置。跟踪对象可以是任意未知类别；
MOT—— 检测并跟踪一组特定类别的目标。MOT 需要将第 t-1 帧中检测到的 N 个目标，和第 t 帧中检测到的 M 个目标进行关联，对于相同的目标赋予唯一的 ID。同时需要考虑旧目标的丢失和新目标的出现。

为了统一两个任务，作者将 SOT 的初始帧和 MOT 的前一帧都看成是参考帧，SOT 的初始框和 MOT 中的检测框都看成参考目标框。依此设计了 UTT，如图 2 所示，经过特征提取后，将参考帧特征 $I^0,I^{t-1}$ 、跟踪帧特征 $I^t$ ，以及参考帧中的目标框 $B$ 输入 Track Transformer 用于预测当前跟踪帧中的目标位置。Track Transformer 有三部分：首先 Target Decoder 提取目标特征，然后 Proposal Decoder 在跟踪帧中为每个目标产生候选搜索区域。最后将目标特征和搜索特征都送入 Target Tansformer 预测目标位置。

Target Decoder

为了引入更多上下文信息，使用交叉注意力对目标特征和跟踪帧特征进行交互

Proposal Decoder

将每一个目标特征与完整的跟踪特征做相关计算量太大，因此需要裁剪一个更小的搜索区域。对于 MOT，直接根据前一帧的跟踪框来确定 proposal；而对于 SOT，考虑到目标丢失导致前一帧跟踪框中没有目标的情况，作者将目标特征与跟踪帧特征相关联来产生更精确的 proposal。

这个过程类似 stark，公式 5 得到的 heatmap $H$ 表示两个角点的分布概率，对所有位置的概率求和得到 proposal $P^t$ 。虽然公式 5 中的维度是 N，其实只会生成 SOT 的一个 heatmap，因为对 MOT 每个目标计算一遍成本还是太高。

Target Transformer

通过 Self-Attention 和 Correlation 将目标特征与 proposal 关联。

公式 11 的 FC 层是将 $K^2C$ 的通道维度降维到 $C$ ，相当于把 $K^2$ 的空间特征压缩成一维向量。最后将得到的 N 个向量送入 boxhead 预测相对 proposal 的偏移量得到预测跟踪框。

作者迭代了 L 次 target transformer 来进行目标定位。第一次的 proposal 是通过 proposal decoder 生成的，而后续的 proposal 就是前一次迭代预测的目标框。

Training

分别构建 SOT 和 MOT 两个 dataloader 交替训练。SOT 将图片 crop 到 352，MOT 直接对原图进行随机 resize；
SOT 的初始 proposal 由 proposal decoder 生成，并且该 proposal（B0）也用于计算 loss；MOT 的初始 proposal 是在 GT 上添加高斯抖动生成的；
于 MOT 还需要一个额外的 detection head 用于检测每一帧的目标类别和位置。MOT 的推理阶段需要将 track transformer 生成的跟踪框和 Detection head 生成的检测框进行关联（图 5）

Experiment

SOT 在 LaSOT、TrackingNet 和 Got-10k 测试，MOT 在 MOT16 测试

SOT 相比 UniTrack 提点明显，MOT 的效果还有提升空间

Ablative Studies

高亮部分似乎应该是 MSA，不知是否是笔误

表 5 对比了联合训练和分别单独训练。总体来说联合训练效果更好，只有 MOT 的 IDF1 指标比单独用 MOT 训练低一些。

小结

本文证明了一个模型能够同时解决 SOT 和 MOT 任务。这将鼓励社区开发更多统一的跟踪算法，应用于更复杂的跟踪场景，比如 VR/AR 应用中经常需要进行 SOT 和 MOT 的切换。同时这种联合的范式也更加符合人类的直觉。