【多目标跟踪论文阅读笔记——Tracktor++】

最新推荐文章于 2025-02-25 12:45:06 发布

书玮嘎

最新推荐文章于 2025-02-25 12:45:06 发布

阅读量4.8k

点赞数 5

文章标签：目标跟踪计算机视觉深度学习人工智能

本文链接：https://blog.csdn.net/selami/article/details/122116800

版权

[阅读心得] 多目标跟踪经典论文——Tracktor++

写在前面

写在前面

不同于多目标跟踪领域常见的Tracking-by-Detection范式，本文提出了一种直接利用上一帧检测结果进行回归的范式，没有额外的约束或者的优化技巧，直接达到了当年的SOTA，笔者认为，在运动模型设计等方面还有很大的改进空间。

1. Abstract

首先，本文提出了一种基于bbox和检测器回归的方式进行下一帧的跟踪预测的模型Tracktor，相当于直接把检测器转变成跟踪器。同时，提出的跟踪器甚至不需要额外的跟踪数据训练、仅仅依靠训练好的two-stage检测器就能实现。
其次，通过添加ReID模型和CMC相机补偿模型，将提出的模型扩展为Tracktor++，达到了SOTA水平。
最后，论文分析了目前跟踪器的性能局限，提出了遮挡严重、目标尺寸过小是目前限制跟踪器性能的主要场景，提倡后续研究着重沿着此方向进行。

2. Related Work

目前，多目标跟踪任务在遮挡和难检测的拥挤场景下，仍然存在很大问题。
如今解决跟踪问题主要有三种思路，分别是基于图的匹配、基于外观特征的匹配、基于运动模型的匹配。但是存在各自的局限性，不能很好的解决上述场景下的跟踪问题。

基于图的匹配：将检测目标看作节点，之间的相似性作为边，将任务转化为一个图的问题。最近的工作往往尝试更复杂的建模包括引入多相机、动作识别、分割等考虑因素。这种方式的缺点在于，巨大的计算量往往没法转换成明显的跟踪性能提升。
基于外形特征：目前多数使用color-based的REID模型。这种方法的缺点在于：一旦存在穿着相似、背景或者光线干扰等因素，产生的外形特征就会出错。
基于运动模型：目前多采用匀速运动模型进行运动估计，这种方法的缺点在于：行人的运动往往更加复杂

3. Trackor++

Tracktor总体结构如图所示：
在这里插入图片描述

3.1 Object Detector

本文中主要采用两阶段的目标检测模型Faster R-CNN，包含ResNet-101和FPN，在MOT17Det数据集上进行训练（注意没有依靠任何跟踪层面的标注数据）

简单介绍一下检测流程：首先，Faster R-CNN先采用RPN网络生成众多bbox proposals。随后，通过ROI pooling提取每个proposal的特征图，输入到第二阶段的Classification Head 和Regression Head。最终，通过NMS筛选获得最终的检测结果作为输出

3.2 Tracktor*

如上图所示，通过Tracktor完成跟踪任务需要两个基本的阶段：BBox Regression和Track Initialization。

BBox Regression*

该过程如上图蓝色箭头所示：

生成bbox ：对第t帧的跟踪任务，选择将第t-1帧检测到的目标生成的bbox对应特征图继承，将其输入到两个Head中进行分类和回归，而不是从ROI中生成。本质上是基于上一帧回归预测当前帧。
筛选生成的bbox：生成bbox之后，还需要判断是否保留这个bbox，主要有两个依据：
1）目标bbox被背景遮挡等导致class置信度 $s^k_t < \sigma_{active}$
2）目标bbox与其他目标bbox重叠，通过NMS筛选

这么做的根本逻辑前提是：相邻帧间目标的移动都是轻微的。这一前提依赖于视频是高帧率的，否则需要一些运动模型做补偿。

BBox Initialization*

该过程如上如红色箭头所示：

对第0帧：检测到的目标通过NMS筛选的都保留，均新建各自对应的ID
对其他帧：检测到的目标如果和BBox Regression阶段生成的任何一个bbox的 $IOU<\lambda_{new}$ ，则创建新轨迹ID

这一过程主要是为了将过程中新出现的目标涵盖进来。

3.3 Tracking Extension

这一部分提出了两个扩展模块：Motion Model 和 ReID Model 来增强Tracktor的性能。

Motion Model

在3.2中假设：目标在帧间的移动是细微的。 但是存在两种情况不满足该假设：
1）相机运动较大； 2）视频帧率较低。
因此，在一般情况下都使用集中基于ECC技术的相机去抖补偿CMC，如果视频帧率较低，采用CVA手段对目标运动进行补偿。

ReID Model

为了保证实时性，通过Siamese 网络生成一个较小的REID向量，用于进行匹配。

4. Experiment

4.1 Object Visibility

在这里插入图片描述

Tracktor++对目标遮挡率0.3以上都能保持一定的跟踪能力
遮挡情况确实会影响所有算法的跟踪性能，遮挡越严重，跟踪性能越差
Tracktor++相对Tracktor仅有微量性能上的提升

4.2 Object Size

在这里插入图片描述

目标尺寸确实会影响跟踪性能，目标越小，跟踪性能越差
Tracktor++ 的FPN在一定程度上环节了小目标情况跟踪性能变差的情况

4.3 Benchmark Evaluation

在这里插入图片描述

5. Conclusion

本文提出了一种利用检测器做基于Bounding Box的回归的跟踪模型Tracktor++，从而提出了一种新的范式，这种范式下甚至不需要单独为跟踪任务做标注，只需要训练好一个two-stage的检测器即可。
另外通过实验，发现目前所有跟踪算法的缺陷是：面对严重的遮挡问题、小目标跟踪问题等情况均没有较好的鲁棒性。这也是后续工作中需要专注改进的方面。