目录
摘要
尽管在目标跟踪方面取得了许多进展,但当前跟踪算法的进一步发展受到小且几乎饱和的数据集的限制。事实上,由于专用大规模跟踪数据集的稀缺,基于深度学习的数据饥饿型跟踪器目前依赖于目标检测数据集。在这项工作中,我们介绍了TrackingNet,这是世界上第一个大规模的目标跟踪数据集和基准。我们提供超过30K的视频,超过1400万个密集的包围盒注释。我们的数据集涵盖了广泛多样的上下文中的各种对象类。通过发布如此大规模的数据集,我们期待深度跟踪器进一步完善和推广。此外,我们引入了一个由500个新视频组成的新基准,其分布类似于我们的训练数据集。通过隔离测试集的注释并提供在线评估服务器,我们为对象跟踪器的未来开发提供了一个公平的基准。深度跟踪器在我们的数据集的一小部分上进行了微调,在OTB100上的性能提高了1.6%,在TrackingNet测试上的性能提高了1.7%。我们通过评估20多个跟踪器,在TrackingNet上提供了一个广泛的基准。我们的研究结果表明,野外目标跟踪问题还远未解决。
1.引言
目标跟踪是计算机视觉中的一项常见任务,有着几十年的悠久历史[1-3]。尽管该领域取得了长足的进步,但目标跟踪仍然是一项具有挑战性的任务。当前的跟踪器在已建立的数据集(如OTB[4,5]和VOT[6-11]基准)上表现良好。然而,这些数据集中的大多数都相当小,并不能完全代表在野外跟踪目标时所面临的挑战。
随着计算机视觉中深度学习的兴起,跟踪界目前正在接受数据驱动的学习方法。提交给年度挑战赛VOT17[11]的大多数跟踪器都使用深度功能,而在早期版本VOT13[7]和VOT14[8]中没有这些功能。此外,在VOT17中表现最好的跟踪器[11]中,有九个依赖于深度功能,表现优于之前最先进的跟踪器。然而,跟踪界仍然缺乏专门的大规模数据集来培训深度跟踪器。因此,深度跟踪器通常仅限于使用来自目标分类[12]的预先训练的模型,或者使用诸如ImageNet视频[13]的目标检测数据集。作为一个例子,SiameseFC[14]和CFNet[15]通过训练特定卷积神经网络(CNN)进行跟踪,显示了出色的结果。
由于传统的跟踪器依赖手工制作的特征,而且现有的跟踪数据集很小,因此目前用于训练和测试的数据之间没有明确的划分。最近的基准测试[11,16]现在考虑搁置隔离测试集以提供公平的比较。然而,这些测试集很小,并且不是专门用于训练目的的。因此,在与VOT[6]竞争之前,经常会看到跟踪器在OTB[5]数据集上开发和训练。请注意,VOT15[9]是从OTB100[5]和ALOV300[17]等现有数据集中采样的,导致序列重叠(例如篮球、汽车、歌手等)。即使冗余得到了控制,人们在选择训练视频序列时也需要小心,因为在测试视频上训练深度跟踪器是不公平的。因此,通常没有足够的数据来训练用于跟踪的深层网络,而来自不同领域的数据被用于预先训练模型,这对于某些体系结构来说是一个限制因素。
本文介绍了TrackingNet,这是一个为训练深度跟踪器而设计的大规模目标跟踪数据集。我们的数据集有几个优点。首先,庞大的训练集使开发专门用于跟踪的深层设计成为可能。其次,用于目标跟踪的数据集的特殊性使得新颖的体系结构能够关注连续帧之间的时间上下文。当前的大规模目标检测数据集不能及时提供密集标注的数据。第三,TrackingNet通过对YouTube视频进行采样来呈现真实世界的场景。因此,TrackingNet视频包含丰富的对象类分布,我们强制在训练和测试之间共享这些对象类。最后,我们在一个目标类和运动分布相似的隔离测试集上评估了跟踪器的性能。跟踪器无法访问这些视频的注释,但可以通过评估服务器获得结果和见解。
贡献。(I)提出了第一个用于目标跟踪的大规模数据集TrackingNet。分析了TrackingNet与其他数据集相比的特点、属性和唯一性(第三节)。(II)我们深入探讨了从粗略注释生成密集注释的不同技术。我们表明,大多数跟踪器可以在1秒的时间间隔内生成准确可靠的密集标注。(第4节)。(III)我们为以TrackingNet为基准的最先进的追踪器提供扩展的基线。我们表明,在TrackingNet上预训练深度模型可以提高它们在其他数据集上的性能,其度量最高可提高1.7%。(第5节)。
2.相关工作
在下文中,我们对目标跟踪的各种研究进行了综述。该领域中的任务可以在多目标跟踪[5,6]和单目标跟踪[18,16]之间进行群集。前者主要关注特定类目标的多实例跟踪,依赖于强大而快速的目标检测算法和连续帧之间的关联估计。后者是这项工作的目标。它通过检测跟踪来解决问题,该检测由两个主要组成部分组成:模型表示,无论是生成[19,20]还是判别[21,22],以及目标搜索,在计算成本和感兴趣区域的密集采样之间进行权衡。
相关滤波器跟踪器。近年来,相关滤波(CF)跟踪器[23-26]已经成为最常见、速度最快、最准确的跟踪器。CF跟踪器在表示感兴趣目标的第一帧学习滤波器。此滤波器在更新目标之前在连续帧中定位目标。CF跟踪器令人印象深刻的性能背后的主要原因在于通过循环移位目标补丁样本实现的近似密集采样[24]。此外,通过有效地解决傅立叶域中的底层岭回归问题,实现了显著的运行时性能[23]。
自从具有单通道特征[23,24]的CF跟踪器问世以来,它们已经扩展了内核[25]、多通道特征[27]和尺度自适应[28]。此外,许多工作通过调整回归目标[29]、添加上下文[30,31]、空间正则化学习滤波器和学习连续过滤器[32]来增强原始公式。
深度追踪器。除了使用目标检测网络的深度特征的CF跟踪器之外,很少有作品探索更完整的深度学习方法。第一种方法包括学习大规模目标检测数据集上的通用特征,并以在线方式连续微调特定于域的层以成为特定于目标的层。MDNet[33]通过赢得VOT15[9]挑战展示了这种方法的成功。第二种方法包括训练完全卷积网络,并在跟踪期间使用特征图选择方法在浅层和深层之间进行选择[34]。目标是在一般语