目录
摘要
本文提出了一种高质量的大规模单目标跟踪基准算法LaSOT。LaSOT由1400个序列组成,总共超过3.5M帧。这些序列中的每一帧都用一个边界框进行了仔细的手动注释,使LaSOT成为我们所知的最大的、注释密集的跟踪基准。LaSOT的平均视频长度超过2500帧,每个序列包括来自野外的各种挑战,其中目标对象可能会消失并重新出现在视图中。通过发布LaSOT,我们希望为社区提供一个大规模、高质量的专用基准,用于深度跟踪器的培训和跟踪算法的真正评估。此外,考虑到视觉外观和自然语言的密切联系,我们通过提供额外的语言规范来丰富LaSOT,旨在鼓励对自然语言特征的探索以进行跟踪。在LaSOT上对35种跟踪算法进行了全面的实验评估,并进行了详细的分析,结果表明仍有很大的改进空间。
1.引言
在视频监控、机器人、人机交互等众多应用中,视觉跟踪是计算机视觉中的一个重要问题,其目的是在视频的第一帧中定位任意的目标[32,47,54]。随着跟踪界取得了长足的进步,已经提出了许多算法。在这个过程中,跟踪基准在客观评价以及比较不同跟踪器上发挥了至关重要的作用。然而,跟踪算法的进一步开发和评估受到现有基准的限制,存在以下几个问题:
小尺度的。深度表示在现代目标跟踪算法中得到了广泛的应用,并展示了最先进的性能。然而,由于大规模跟踪数据集的稀缺,使用特定于跟踪的视频来训练深度跟踪器是困难的。如图1所示,现有的数据集很少有超过400个序列。因此,研究人员受限于利用来自图像分类的预先训练的模型(例如,[46]和[18])来进行深度特征提取,或者利用来自视频目标检测的序列(例如,[45]和[43])来进行深度特征学习,这可能由于不同任务之间的内在差异而导致次优的跟踪性能[55]。此外,需要更大规模的基准来获得更可靠的评估结果。
缺乏高质量的密集注释。对于跟踪,高精度的密集(即每帧)注释非常重要,原因有几个。(I)它们确保更准确和可靠的评估;(II)它们为跟踪算法的训练提供所需的训练样本;(III)它们在对跟踪任务重要的连续帧之间提供丰富的时间背景。值得注意的是,最近提出了一些针对大规模和长期跟踪的基准,例如[41]和[51],然而,它们的注释要么是半自动的(例如,由跟踪算法生成),要么是稀疏的(例如,每30帧标记一次),这限制了它们的可用性。
短期跟踪。期望的跟踪器能够在相对较长的时间内定位目标,其中目标可能消失并重新进入视图。然而,大多数现有基准都集中在短期跟踪上,其中平均序列长度小于600帧(即,对于30fps,20秒,再次参见图1),并且目标几乎总是出现在视频帧中。对这种短期基准的评估可能不能反映跟踪器在现实世界应用中的真实性能,从而限制了其在实践中的部署。
类别偏见。一个鲁棒的跟踪系统应该表现出对目标所属类别不敏感的稳定性能,这意味着在训练和评估跟踪算法时都应该抑制类别偏差(或类别不平衡)。然而,现有的基准通常只包括几个类别(参见Tab1)视频数量不均衡。
在文献中,已经提出了许多数据集来处理上述问题:例如,用于长期跟踪的[39,51],用于大规模的[41],用于精确密集标注的[52,35,25]。然而,它们都没有解决所有的问题,这促使了LaSOT的提议。
1.1 贡献
基于上述动机,我们为社区提供了一个具有多重贡献的大规模单目标跟踪(LaSOT)的新基准:
1)LaSOT由1400个视频组成,平均每个序列2512帧。每一帧都经过仔细检查和手动标记,并在需要时对结果进行视觉上的双重检查和更正。这样,我们生成了大约352万个高质量的边界框注释。此外,LaSOT包含70个类别,每个类别由20个序列组成。据我们所知,LaSOT是迄今为止最大的基准,拥有高质量的人工密集标注用于目标跟踪。通过发布LaSOT,我们的目标是为跟踪算法的开发和评估提供一个专用平台。
2)与现有的数据集不同,LaSOT既提供了视觉边界框标注,又提供了丰富的自然语言规范,最近已被证明对包括视觉跟踪在内的各种视觉任务(例如,[21,31])是有益的。通过这样做,我们的目标是鼓励和促进探索将视觉和语言特征结合起来,以实现鲁棒的跟踪性能。
3)为了评估现有的跟踪器,并为将来在LaSOT上的比较提供更广泛的基线,我们评估了35个具有代表性的跟踪器在不同协议下的性能,并用不同的度量分析了它们的性能。
2.相关工作
随着跟踪界的长足进步,近几十年来提出了许多跟踪器和基准。在这一部分中,我们主要关注与我们的工作相关的跟踪基准,并让读者参阅调查[32,47,54,30]以了解跟踪算法。
为了进行系统回顾,我们有意将跟踪基准分为两种类型:一种是密集手动注释(简称密集基准),另一种是稀疏和/或(半)自动注释。在下面,我们将分别回顾这两个类别。
2.1 密集基准
密集跟踪基准为每个视频序列提供密集边界框注释。为了确保高质量,包围盒通常会手工标记,并进行仔细检查。对于视觉跟踪任务,训练和评估跟踪器都需要这些高度精确的注释。目前流行的Dense基准有OTB[52,53]、TC-128[35]、VOT[25]、NUS-PRO[28]、UAV[39]、NFS[14]和GOT-10k[22]。
OTB。OTB-2013[52]首次通过收集每帧中带有手动注释边界框的51个视频提供测试数据集。序列用11个属性进行标记,以便进一步分析跟踪性能。后来,通过引入额外的50个序列,OTB-2013被扩展到更大的OTB-2015[53]。
TC-128。TC-128[35]包含128个专门用于评估颜色增强型跟踪器的视频。这些视频带有11个与OTB[52]中类似的属性。
VOT。VOT[25]引入了一系列跟踪竞赛,每个竞赛包含多达60个序列,目的是在相对较短的持续时间内评估跟踪器的性能。VOT数据集中的每个帧都使用具有多个属性的旋转边界框进行注释。
NUS-PRO。NUS-PRO[28]包含365个关注人体和刚性目标跟踪的序列。NUS-PRO中的每个序列都带有目标位置和遮挡程度的注释,以供评估。
UAV。UAV123和UAV20L用于无人机(UAV)跟踪,分别包括123个短序列和20个长序列。UAV123和UAV20L都标有12个属性。
NFS。NFS[14]提供了100个帧速率为240帧/秒的序列,旨在分析外观变化对跟踪性能的影响。
GOT-10K。GOT-10k[22]包含10,000个视频,旨在为跟踪器的开发和评估提供丰富的运动轨迹。
LaSOT属于密集跟踪数据集的范畴。与其他序列相比,LaSOT是最大的,有352万帧,平均序列长度为2512帧。此外,LaSOT为每个视频提供了额外的语言描述,而其他视频则没有。表1提供了LaSOT与现有密集基准的详细比较。
2.2 其他基准
除了密集的跟踪基准之外,还存在其他基准,这些基准可能不能为每个帧提供高质量的注释。取而代之的是,这些基准被稀疏地(例如,每30帧)注释或由跟踪算法(半自动)标记。这类基准的代表包括ALOV[47]、TrackingNet[41]和OxUvA[51]。ALOV[47]由标记在14个属性中的314个序列组成。ALOV不是密集地为每个帧添加注释,而是每5帧提供一次注释。TrackingNet[41]是通过选择30K个视频的视频对象检测基准YT-BB[43]的子集,每个视频由跟踪器注释。虽然在OTB 2015[53]上,用于标注的跟踪器在短时间内(即1秒)被证明是可靠的,但在更难的基准上很难保证同样的性能。此外,TrackingNet的平均序列长度不超过500帧,在长期场景下可能无法体现跟踪器的性能。OxUvA[51]也来自YT-BB[43]。与TrackingNet不同,OxUvA专注于长期跟踪。它包含366个视频,平均长度约为4200帧。然而,OxUvA的一个问题是它没有在连续的帧中提供密集的注释。OxUvA中的每个视频每30帧被注释一次,在开发跟踪算法时忽略了连续帧之间丰富的时间上下文。
尽管标注代价有所降低,但对这些基准的评价可能不能真实地反映跟踪算法的真实性能。此外,这可能会给一些需要从注释中学习时态模型的跟踪器带来问题,因为这些基准测试中的时态上下文可能因为稀疏的注释而丢失,或者由于潜在的不可靠的注释而不准确。相比之下,LaSOT提供了大量具有高质量密集边界框注释的序列集,这使得它更适合于开发深度跟踪器以及在实际应用中评估长期跟踪。
3.提出的LaSOT基准
3.1 设计原则
LaSOT的目标是为社区提供一个专门的数据集,用于训练和评估跟踪器。为此,我们在构建LaSOT的过程中遵循了五个原则,即大规模、高质量的密集标注、长期跟踪、类别平衡和全面标注。
1)大规模。LaSOT的主要动机之一是为训练渴望数据的深度跟踪器提供一个数据集,这需要大量的注释序列。因此,我们预计这样的数据集将包含至少一千个视频和至少一百万帧。
2)高质量的密集标注。如前所述,跟踪数据集需要具有高质量的密集边界框注释,这对于训练鲁棒的跟踪器以及如实的评估是至关重要的。为此,LaSOT中的每个序列都通过额外仔细的检查和微调进行了手动注释。
3)长期跟踪。与短期跟踪相比,长期跟踪更能反映野外跟踪器的实际性能。我们确保每个序列至少包含1,000帧,而LaSOT的平均序列长度约为2,500帧。
4)类别平衡。不管目标对象属于哪种类别,鲁棒的跟踪器都应该一致地执行。为此,在LaSOT中,我们包括来自70个类别的不同对象集合,每个类别包含相同数量的视频。
5)综合标注。作为一项复杂的任务,跟踪最近看到了自然语言规范的改进。为了激发更多的探索,LaSOT的一个原则是为视频提供全面的标签,包括视觉和语言注释。
3.2 数据收集
我们的基准涵盖了不同上下文中的各种对象类别。具体地说,LaSOT由70个对象类别组成。大多数类别都是从ImageNet[12]的1,000个类别中挑选出来的,只有少数例外(例如无人机)是为流行的跟踪应用精心挑选的。与现有的不到30个类别且通常分布不均匀的密集基准不同,LaSOT为每个类别提供相同数量的序列,以减轻潜在的类别偏差。数据集的详细信息可以在补充材料中找到。
在确定了LaSOT中的70个对象类别后,我们从YouTube上搜索了每个类别的视频。最初,我们收集了5000多个视频。综合考虑跟踪视频的质量和LaSOT的设计原则,我们选择了1400个视频。然而,由于大量不相关的内容,这1400个序列不能立即用于跟踪任务。例如,对于人物类别(例如,运动员)的视频,其开头往往包含每个运动员的一些介绍内容,这对于跟踪是不可取的。
因此,我们在每段视频中仔细过滤掉这些不相关的内容,并保留一个可用的片段进行跟踪。此外,LaSOT中的每个类别由20个目标组成,反映了类别的平衡和自然场景的多样性。
最终,我们在Creative Commons的许可下,从YouTube上收集了1400个序列和352万帧,从而编制了一个大规模的数据集。LaSOT的平均视频长度为2512帧(即30fps为84秒)。最短的视频包含1000帧(即33秒),而最长的视频包含11,397帧(即378秒)。
3.3 注释
为了提供一致的边界框标注,我们定义了确定性标注策略。给定具有特定跟踪目标的视频,对于每一帧,如果目标对象出现在帧中,则贴标机手动绘制/编辑其边界框作为最紧的右侧边界框,以适合目标的任何可见部分;否则,贴标机给该帧一个不在视图之外或完全遮挡的标签。请注意,这种策略不能保证将方框中的背景区域最小化,就像在任何其他基准中观察到的那样。然而,该策略确实提供了一个一致的注释,该注释对于学习动态是相对稳定的。
虽然上述策略在大多数情况下都很管用,但也有例外。一些物体(例如鼠标)可能具有细长且高度变形的部分(例如尾巴),这不仅在物体外观和形状上造成严重的噪声,而且几乎不提供用于定位目标物体的信息。我们仔细地在LaSOT中识别这样的对象和关联的视频,并为它们的注释设计特定的规则(例如,在画老鼠边界框的时候不包括老鼠的尾巴)。这种情况的一个例子如图2的最后一行所示。
序列的自然语言规范由描述目标的颜色、行为和环境的句子表示。对于LaSOT,我们为所有视频提供了1400个句子。请注意,语言描述旨在为跟踪提供辅助帮助。例如,如果跟踪器生成进一步处理的建议,语言规范可以通过充当全局语义指南来帮助减少它们之间的歧义。
要构建高质量的密集跟踪数据集,最大的努力显然是手动标记、双重检查和纠错。为此,我们组织了一个注释队,其中包括几名从事相关领域工作的博士生和大约10名志愿者。为了保证高质量的注释,每个视频都由团队处理:一个标签团队和一个验证团队。标签团队由一名志愿者和一名专家(博士生)组成。志愿者在每一帧中手动绘制/编辑目标边界框,专家检查结果并在必要时进行调整。然后,验证团队将检查注释结果,其中包含几个(通常是3个)专家。如果批注结果没有得到验证小组成员的一致同意,将被送回原标签组进行修改。
为了尽可能提高标注质量,我们团队非常仔细地检查了标注结果,并经常对其进行修改。大约40%的初始注释在第一轮验证中失败。而且很多框架都被修改了三次以上。图3给出了一些最初被错误或不准确标记的帧的有挑战性的例子。经过所有这些努力,我们终于达到了一个具有高质量密集注释的基准,图2中显示了一些例子。
3.4 属性
为了进一步分析跟踪器的性能,我们用14个属性来标记每个序列,包括光照变化(IV)、完全遮挡(FOC)、部分遮挡(POC)、变形(DEF)、运动模糊(MB)、快速运动(FM)、比例变化(SV)、摄像机运动(CM)、旋转(ROT)、背景杂波(BC)、低分辨率(LR)、视点变化(VC)、视距变化(OV)和纵横比变化(ARC)。属性在选项卡中定义。图4(a)示出了视频在每个属性中的分布。
从图4(a)中,我们观察到LaSOT中最常见的挑战因素是比例变化(SV和ARC)、遮挡(POC和FOC)、变形(DEF)和旋转(ROT),这些都是现实应用中跟踪的众所周知的挑战。此外,图4(B)显示了LaSOT与OTB2015[53]和TC-128[35]在重叠属性上的属性分布。从图中我们可以看到,LaSOT中有1300多个视频涉及比例变化。相比于OTB-2015和TC-128不到70个规模变化的视频,LaSOT在规模变化上更具挑战性。此外,在视野之外的属性上,LaSOT包含477个序列,远远大于现有的基准。
3.5 评估方案
虽然没有使用LaSOT的限制,但我们提出了两种评估协议来评估跟踪算法,并进行了相应的评估。
方案I。 在方案I中,我们使用全部1400个序列来评估跟踪性能。研究人员被允许使用除LaSOT中的那些序列之外的任何序列来开发跟踪算法。协议I旨在提供对跟踪器的大规模评估。
方案II。在方案II中,我们将LaSOT分为训练和测试子集。根据80/20原则(即帕累托原则),我们从每个类别的20个视频中选择16个进行训练,其余的用于测试。具体而言,训练子集包含1120个2.83M帧的视频,测试子集包含280个690K帧的序列。在测试子集上执行跟踪器的评估。方案II的目标是同时提供大量视频,用于训练和评估跟踪器。
4.评估
4.1 评估指标
根据流行的跟踪协议(如OTB-2015[53]),我们进行了一次通过评估(OPE),并测量了两种协议下不同跟踪算法的精确度、归一化精度和成功率。
精度是通过比较跟踪结果与地面真实边界框之间的距离(以像素为单位)来计算的。不同的跟踪器利用该度量在阈值(例如,20像素)上进行排名。由于精度度量对目标大小和图像分辨率很敏感,因此我们将精度归一化,如[41]所示。在归一化精度度量下,我们使用曲线下面积(AUC)在0到0.5之间对跟踪算法进行排名。有关归一化精度度量,请参考[41]。以跟踪结果和背景真相边界框之间的交集(IOU)计算成功。跟踪算法使用0到1之间的AUC进行排序。
4.2 评估跟踪器
我们在LaSOT上评估了35种算法,以提供广泛的基线,包括深度跟踪器(例如,MDNet[42]、Traca[5]、CFNet[50]、SiamFC[4]、StructSiam[59]、DSiam[16]、Sint[49]和Vital[48])、具有手工特征的相关滤波器跟踪器(例如,ECO[7]、DSST[8]、CN[11]、CSK[19]、KCF[20]、fDSFilter跟踪器(例如,ECO[7]、DSST[8]、CN[11]、CSK[19]、KCF[20]、fDSFilter。STC[57]和Staple[3])或深层特征(例如HCFT[37]和ECO[7])和正则化技术(例如BACF[15]、SRDCF[10]、CSRDCF[36]、Staple CA[40]和STRCF[29])、集合跟踪器(例如PTAV[13]、LCT[38]、Meem[56]和TLD[24])、稀疏跟踪器(例如L1APG[2]。Mil[1]和Strike[17])。表3按时间顺序总结了这些跟踪器及其表示方案和搜索策略。
4.3 按照方案I的评估结果
整体表现。方案I 旨在对LaSOT的所有1400个视频进行大规模评估。每个跟踪器都按原样用于评估,没有任何修改。我们使用精确度、归一化精确度和成功率在OPE中报告了评估结果,如图5所示。MDNet获得的最佳精确度得分为0.374,成功得分为0.413,VITAL获得的最佳归一化精确度得分为0.484。MDNet和VITAL都是以在线方式进行培训,导致计算成本高、运行速度慢。SIMAFC跟踪器使用深度网络从大量视频中离线学习匹配函数,获得了0.341的准确率分数、0.449的归一化准确率分数和0.358的成功率分数的竞争性结果。无需耗时的在线模型适配,SiamFC实时高效运行。最好的相关滤波跟踪器是ECO,精度得分为0.298,归一化精度得分为0.358,成功率得分为0.34。
与现有密集基准(如OTB-2015[53])上的典型跟踪性能相比,LaSOT上的跟踪性能由于包含大量非刚性目标和挑战性因素而严重下降。来自图5的一个有趣的观察是所有前七个跟踪器都利用深度特征,这表明它在处理外观变化方面的优势。
基于属性的性能。为了分析现有跟踪器面临的不同挑战,我们在14个属性上对所有跟踪算法进行了评估。我们在图6中显示了三个最具挑战性的属性,即快速运动、视线外和完全遮挡的结果,并请读者参考补充材料进行详细的基于属性的评估。
定性评价。为了定性地分析不同的跟踪器,并为以后的研究提供指导,我们展示了MDNet,SiamFC,ECO,PTAV,Staple和Meem等六种代表性跟踪器在图7中的六个典型困难挑战中的定性评估结果,这些挑战包括快速运动,完全遮挡,低分辨率,视线外,纵横比变化和背景杂乱。从图7中我们观察到,对于快速运动,完全遮挡和视线外的视频(如Yoyo-3,Goldfish-4),我们观察到,对于快速运动,完全遮挡和视线外的视频(如Yoyo-3,Goldfish-4。要应对这些挑战,一个潜在的解决方案是利用特定于实例的检测器来定位目标以进行后续跟踪。由于对小目标的表示效果不佳,跟踪器容易在低分辨率的视频中产生偏移。基于深度特征的跟踪器的一种解决方案是组合来自多个尺度的特征,以将细节融入到表示中。长宽比变化的视频很难处理,因为现有的跟踪器要么忽略了这个问题,要么采用简单的方法(例如随机搜索或金字塔策略)来处理它。受基于深度学习的目标检测的成功启发,可以利用通用回归来减小纵横比变化(和尺度变化)对跟踪的影响。对于有背景杂波的序列,由于目标和背景的分辨率较低,跟踪器会产生漂移。缓解这一问题的一种可能的解决方案是利用上下文信息来增强可区分性。
4.4 按照方案II的评估结果
在协议II下,我们将LaSOT分为训练集和测试集。研究人员被允许利用训练集中的序列来开发他们的跟踪器,并评估他们在测试集中的表现。为了提供测试集上的基准和比价,我们对35种跟踪算法进行了评估。每个跟踪器都按原样用于评估,无需任何修改或重新训练。评价结果如图8所示,使用精密度、归一化精密度和成功率。我们观察到与协议I一致的结果。MDNet和VITAL的精度得分最高,分别为0.373和0.36,归一化精度得分分别为0.46和0.453,成功率得分分别为0.397和0.39。接下来,SiamFC的性能排名第三,分别为0.339的精度分数、0.42%的归一化精度分数和0.336的成功率分数。尽管精确度得分略低于MDNet和VITAL,但SiamFC的运行速度要快得多,并达到实时运行速度,在精确度和效率之间表现出良好的平衡。由于篇幅有限,对于LaSOT测试集上的跟踪器的基于属性的评估,我们建议读者参考补充材料。
除了对每种跟踪算法进行原样评估外,我们还在LaSOT的训练集上对两个有代表性的深度跟踪器MDNet[42]和SiamFC[4]进行了重新训练和评估,并进行了实验。评估结果显示,这些跟踪器在没有经过再训练的情况下表现出了相似的性能。一个潜在的原因是,我们的重新训练可能不会遵循最初作者使用的相同配置。此外,由于LaSOT通常比以前的数据集更具挑战性(例如,所有序列都是长期的),因此可能需要专门的配置来训练这些跟踪器。我们将这一部分留作将来的工作,因为它超出了此基准的范围。
4.5 在LaSOT的再训练实验
我们通过在LaSOT的训练集上重新训练SiamFC[4]来进行实验,以演示如何使用更多的数据来改进基于深度学习的跟踪器。表4报告了OTB-2013[52]和OTB-2015[53]的结果,并与基于ImageNet Video培训的原始SiamFC的性能进行了比较[45]。请注意,我们使用彩色图像进行训练,并使用具有3个尺度的金字塔进行跟踪,即SiamFC-3(彩色)。所有训练和跟踪的参数在这两个实验中都保持相同。从表4我们在两个基准上观察到了一致的性能提升,表明了特定的大规模训练集对深度跟踪器的重要性。
5.结论
提出了一种高质量密集边界框标注的LaSOT算法,用于视觉目标跟踪。据我们所知,LaSOT是迄今为止拥有高质量注释的最大跟踪基准。通过发布LaSOT,我们希望为跟踪社区提供一个专门的平台,用于训练深度跟踪者和评估长期跟踪性能。此外,LaSOT为每个序列提供了语言注释,旨在鼓励探索整合视觉和语言特征以实现鲁棒跟踪。通过发布LaSOT,我们希望缩小深度跟踪器数量不断增加与缺乏用于训练的大型专用数据集之间的差距,同时为野外不同的跟踪器提供更真实的评估。在两种协议下对LaSOT进行了广泛的评估,这意味着在视觉跟踪方面还有很大的改进空间。