摘要
本文提出将无监督学习应用到目标跟踪领域,也就是使用无标注的视频序列训练跟踪器。基于【一个鲁棒的跟踪器应该通过前向传播能预测下一帧目标位置,同时从下一帧目标位置反向传播能准确回到目标初始位置】的理论,本文采用无监督学习来训练Siamese网络框架,通过多帧验证和一个损失敏感函数来改进训练过程,提高训练的跟踪器的准确性。
背景
本文的动机:跟踪的准确性可以通过前向传播和反向传播来验证。一般情况下,目标跟踪是给定目标在初始帧的bbox,然后根据初始帧目标的bbox前向传播,预测后续帧中目标的bbox。如果采用无监督训练方式,可以将后续帧框定目标的bbox假定为初始帧,反向传播可以得到目标在初始帧的预测bbox,我们希望预测的bbox与真实bbox之间差距尽可能小。因此,可以通过前向传播和反向传播不断缩小上述预测值和真实值的差距来训练网络。
但在实际跟踪中,可能前向传播预测新一帧的跟踪结果与目标位置偏离,但从该帧出发反向传播得到的预测位置与groundtruth一致,这样训练出来的跟踪器不够准确。此外,在视频序列中可能出现遮挡等降低网络表达能力的挑战。
贡献
为了解决上述问题,本文提出【多帧验证】和一个【损失敏感函数】来噶金无监督的目标跟踪训练:
- 【多帧验证】如下图所示,使用单帧验证无法确保跟踪的准确性,本文采用多帧验证放大预测偏差进行改进,具体是在原两帧的基础上增加一帧,将这三帧作为一个训练样本,根据第一帧的目标位置bbox预测第二帧ÿ