论文:Multi-Object Tracking with Multiple Cues and Switcher-Aware Classification
论文下载地址:https://arxiv.org/abs/1901.06129
论文代码:未开源
论文主要框架:
本篇论文提出了一种新的多目标跟踪统一框架。引入和短期和长期线索结合在一起处理来多跟踪过程中的复杂场景。引入了SAC(switcher-aware classification)用来进行决策匹配。
上图是本算法主要的三部分。
1. 图(a)是短期线索部分,主要用来找到检测算法可能无法检测的物体,主要解决遗漏(FN)。
2.图(b)是长期线索部分,主要是结合前面K张图片建立一个外观模型,解决单目标跟踪算法(SOT)由于遮挡原因造成的包围框漂移问题。
3.图(c)是SAC框架,switcher(potential identity-switch causer)可以帮助匹配跟踪目标,在遮挡情况下有switcher的置信度要比没有switcher要高很多。
上图是算法的主要网络结构,算法的流程主要有:
1.初始化,跟踪目标数据集为空,时间t=1.
2.通过SOT网络输出跟踪目标的位置 。
3.将前面k张图片的外观(长期线索里面k张图片),和当前的外观和检测结果都传到ReID网络里面提取一个ReID特征。
4.将步骤2的结果,步骤3的结构和检测器检测的结果组合成目标的匹配特征。
5.找到switcher。找概率最大的identity switch causer。
6.SAC生成匹配分数,看一下检测结果时候和跟踪结果一致。
7.根据步骤6建立跟踪目标与检测结果的二部图。
8.对于匹配的目标,使用匹配检测信息更新位置和模板。对于不匹配的目标,使用SOT结果更新跟踪器位置,并删除被认为不可靠或丢失的目标。对于孤立的检测结果,如果其可信度分数满足新目标的条件,则将其添加到跟踪目标集中。
9.一致重复步骤2-8,知道视频序列结束。
短期线索网络结构:
短期线索网络结构使用的是Siamese-RPN跟踪器。
长期线索网络结构:
长期线索网络结构使用的是GoogleNet v4网络结构。
K张图片是如何选择出来的?
k张图片是通过Q网络找到分数最大的图片。Q网络结构是ResNet-18组成。
跟踪结果: