paper:https://arxiv.org/abs/1903.05625
Code:https://github.com/phil-bergmann/tracking_wo_bnw
多目标跟踪的几个难点:
- 重识别
- 对象模糊,运动预测
- 相邻帧关联里,存在对象的漏检、误检、拥挤等(导致关联的精度在过去两年里只提高了2.4% MOT16(相对论文时间))
贡献:
- 利用检测器的回归Head处理多目标跟踪;
- 提出re-ID模型(Siamese Network)和运动模型(运动估计)
整体框架
框架即为Faster-RCNN,通过一些策略来实现目标跟踪。其本身就是一个二阶段的检测框架。
可以将模型视为检测+跟踪
跟踪部分:
对于每个跟踪对象,对于新来的一帧(第 t 帧),因为假设前提是目标移动幅度不大,所以可以视为目标在当前帧的BBOX与上一帧的BBOX差别不大。因此拿上一帧的BBOX和当前帧的特诊做ROI Align,然后送入faster-RCNN的第二阶段去回归。同时二阶段的Classification的score可以做为对象是否被遮挡的判断。
同时检测框架的结果可以得到新进入画面的目标。检测到的目标如果和所有已有的跟踪对象的IOU小于阈值,则视为新目标。
何时停止跟踪对象:
- classification score低于阈值
- 和已有的跟踪对象结果做nms时被筛掉
上述方法只适用于以下检测前提:
- 相邻两帧间移动幅度不大,否则不能由上一帧的结果来回归当前帧
- 不密集场景
为了解决上述问题,又提出了Motion model和Re-identification
Motion model:文中提了一些不了解的名词,要去看引用原文才行
Re-identification:用跟踪数据集训了一个Siamese网络,给每个对象embedding成一个向量。用于比较新检测到的目标和已失活的目标(停止跟踪的对象)的距离,判断是否是原目标。