论文:Track to Detect and Segment: An Online Multi-Object Tracker
TraDeS:跟踪检测与分割:一种在线多目标跟踪器
摘要
大多数在线多目标跟踪器在独立的,没有任何跟踪输入的神经目标检测网络表现优异。本篇论文中,我们提出一种新的在线检测跟踪模型,TraDeS(跟踪检测与分割),利用跟踪信息来帮助端到端的检测。TraDeS根据代价量推测跟踪目标的偏移距离,这个代价量用于通过前向传播提取对象的特征以此来提高当前目标检测和分割。TraDeS在4个公开数据集上表现出不错的高效和优势,分别是MOT(2D 跟踪),nuScenes (3D 跟踪), MOTS and Youtube-VIS (实例分割). 项目主页: https://jialianwu.com/projects/TraDeS.html
1.介绍
优秀的在线多目标跟踪方法遵循两种主要的范式:基于检测的跟踪和联合检测跟踪。基于检测的跟踪范式将检测和跟踪作为两个独立的任务(图一(a))。通常利用现成的目标检测器检测,接着再用其他网络进行数据关联。这种基于检测的跟踪模式通常效率不高,并且由于两步骤流程不能优化端到端。为了解决这个问题,最近的解决方案中出现了联合目标检测和跟踪范式,这种范式类似于将检测和跟踪在单个前向传播中完成。
然而,联合跟踪检测范式存在两个问题:(1)尽管大多数联合跟踪检测网络骨干网络共享,但是检测部分还是单独的,没有利用到跟踪信息。我们认为检测为稳定并且持续的跟踪提供基石,作为反馈,跟踪信息应该帮助检测,尽管场景复杂,比如存在遮挡和运动模糊。(2)通过[9]和我们实验学习(表1b),在联合检测跟踪的主干网络中,普遍的re-id跟踪的损失函数并不与检测的损失函数兼容,这从某种程度上会影响检测结果。主要原因在于,re-id更侧重的是类内方差,而检测的目标是增加类内差异和最小类内方差。
本论文,我们提出新的在线检测和跟踪模型,称为TraDeS(TRAck to DEtect and Segment)。在TraDeS中 ,与CenNet类似,每个特征图谱中的点要么表示目标中心点要么表示背景区域。TraDeS在此之上提出两个问题, 不但通过紧密地将跟踪器与检测器联合在一起,还专门设计了一个re-id学习方案。我们提出分别基于关联模型(CVA)的代价量和动态导向特征弯曲(MFW)模型。关联模型通过骨干网络逐点提取re-id嵌入特征来构造代价量,这个代价量存储了匹配两帧中相似的嵌入对(嵌入特征对)。然后,我们还根据代价量提出跟踪偏移,这是所有点在时间和空间的位移。例如,在前后两帧中,目标可能存在的中心。跟踪偏移量将所有特征整合用于进行一个简单的两轮长时间数据关联。接着,MFW将跟踪偏移量作为动态信息从前一帧将目标特征传播到当前帧。最后,这个传播了的特征和当前帧的特征合并后进行检测和分割。
在CVA模型中,这个代价量被用于监督re-id嵌入特征,这样不同目标的类别和背景区域隐式地纳入其中。这也是说,我们的re-id对象也被包含在类内方差中。这种方式不仅可以学习到一个有效的嵌入特征作为普通的re-id的损失函数,还可以兼容检测的损失函数并且不会破坏检测结果,结果展示在表1b中。此外,如图3所示,因为跟踪偏移通过外观相似特征预测出来,所以它可以匹配到高速运动或者在被慢速播放的物体,或者如图4所示那样,它甚至可以在看不见大浮动运动的不同数据集中准确地跟踪目标。因此,将一个预测后的目标跟踪偏移量可以作为有效的运动信息在MFW模型中指导我们特征传播。在当前帧中被遮挡的和模糊的物体可能在前几帧中和清晰,所以通过MFW模型,从前几帧传播的特征可能为当前帧的目标恢复已经丢失潜在信息的特征。
总的来说,我们提出一种新奇的在线多目标跟踪网络,TraDeS