Abstract
设计了三个重要的结构:
- switcher-aware classification (SAC):会把可能发生id-switch的考虑在内,然后把下面两种cues结合
- Single Object Tracking (SOT) sub-net:处理short-term cues,有效减少FN(是正样本但没有检测到)
- a reidentification (ReID) sub-net:处理long-term cues,避免遮挡产生的影响
- a switcher-aware classifier:把从主要target里提取的特征和swithcer里提出的特征做matching
Intro
输入是frame-wise detecitons,主要解决detection之间的关联。short-term cues包含对邻帧之间position、appearance、motion的处理。long-term对tracklet里appearance feature的处理。SOT tracker在short-term里比较有效,只有当遮挡出现的时候可能会变得不可靠。long-term用于解决遮挡问题。下图(a)(b)
我们在实验中发现,很难用一个单一的网络把short term cues连接起来。而且SOT很难区分相似的物体。long term cues不能预测准确的target position。所以我们结合两种cues。
还有就是用local interaction information解决 id-switch causer。。下图(c)
最终SAC会结合long、short cues并且把potential swithcher 考虑在内,产生的socres会生成一个偶图用于matching
Method
3.1 overall
大致就是,给出frame t 的template,然后用template通过SOT在t+1frame生成一个tracking出的bbox,然后通过SAC这个模块,来看这个tracking出的bbox和detection得到bbox匹配度高不高,高的话,就认为这个detection得到的bbox能够匹配target。
对于匹配上的target,更新template和positon ;没匹配上的target,即没有在t+1 frame中找到对应的detection bbox的,就用SOTtrack出的bbox来更新tracklet,并且丢弃不可靠的target或者丢失的target。对于那些不属于target的detection results,如果他们的置信度满足一个新target的话,可以加入新的target set。
总之是一个很复杂的work