论文链接:https://arxiv.org/pdf/2203.13250.pdf
Tracking-by-detection范式
当前多目标追踪大多遵循了Tracking-by-detection范式完成跟踪任务。Tracking-by-detection范式将追踪任务分为两步完成:目标检测与数据关联。这样的解决思路也使得当前许多Tracking-by-detection的追踪器将关注点放到了如何进行有效的数据关联。
- 对于Local Tracker的关联思路主要是进行逐帧的匹配关联,又称pairwise association,是一种贪心的局部最优方式,当追踪序列中目标一直在,这样的方式性能佳,但是当发现长时间遮挡或者外观巨变,这样的方法就失效了。我之前写的关于*MOTR*这篇论文就是这样一个局部关联的Tracker。
- 对于Global Tracker是基于图论等进行全局优化,这就使得它可以将不连续出现的目标匹配到一起,更鲁棒,但是速度慢,因为要预先得到许多帧的追踪目标才行,这样也使得追踪直接和检测分离。
文章侧重点
- 本篇论文的模型分为两部分:目标检测器和目标匹配器(GTR)。模型的输入是一段图片序列(文中为32帧),其中,目标检测器负责输出一段图片帧中的所有目标的边界框,GTR负责将这些目标匹配起来,输出检测给的边界框完成追踪任务,即输出是匹配了轨迹的序列。这点就使其成为Global Trackier。因为它是非逐帧关联,而是在一段序列(时间窗口)里进行所有检出目标的全局式关联。
- 这样的模型就引出了一个问题,目标检测器的好坏对整个模型的性能是比较关键的。因为后阶段的目标匹配