LaSOT: A High-quality Benchmark for Large-scale Single Object Tracking

最新推荐文章于 2024-03-02 20:25:02 发布

御镜灵

最新推荐文章于 2024-03-02 20:25:02 发布

阅读量1.3k

点赞数 20

分类专栏：目标跟踪文章标签：目标跟踪人工智能计算机视觉

本文链接：https://blog.csdn.net/hlm299/article/details/134671537

版权

目标跟踪专栏收录该内容

2 篇文章 0 订阅

订阅专栏

LaSOT: A High-quality Benchmark for Large-scale Single Object Tracking

1. 简介

目标跟踪是计算机视觉领域的重要问题之一，随着跟踪领域的发展，人们提出了许多算法。在这一过程中，跟踪数据集在客观评估和比较不同跟踪器方面起到了至关重要的作用。跟踪算法的进一步发展和评估受到了现有数据集的限制，存在以下几个问题：

规模小 (Small-scale) ：深层表示已广泛应用于现代目标跟踪算法，并表现出了最先进的性能。然而，由于缺乏大规模的跟踪数据集，很难使用跟踪特定视频训练深度跟踪器。如图 1 所示，现有数据集中的序列长度很少超过 400。因此，研究人员只能利用图像分类的预训练模型 (比如 ResNet，VGGNet ) 进行深度特征提取，或者使用视频目标检测的序列 (比如 ImageNet ，YouTube-BoundingBoxes) 进行深度特征学习。由于不同任务之间内在的差异 (深度神经网络的可迁移性)，可能会导致次优的跟踪性能。此外，为了获得更可靠的评估结果，需要大规模的数据集。

图 1：带有高质量标注的现有跟踪数据集。圆直径与数据集的总帧数成正比。LaSOT 比其他数据集都要大，并且专注于长时跟踪。

缺乏高质量的密集标注 (Lack of high-quality dense annotations)：对于目标跟踪，高精度的密集 (也就是每帧) 标注是非常重要的。原因有：(1) 保证了更准确和更可靠的评估；(2) 为跟踪算法的训练提供了所需的训练样本；(3) 在连续的帧之间提供了丰富的时间上下文信息，这对跟踪任务来说非常重要。值得注意的是，虽然最近也提出了面向大规模和长时跟踪的数据集，但它们的标注要么是半自动的 (由算法生成)，要么是稀疏的 (每隔 30 帧标注)，这限制了它们的可用性。
短时跟踪 (Short-term tracking)：我们所期望的跟踪器是能在较长的时间内定位目标，并且在此期间目标可能消失并重新进入视野。大多数现有的数据集致力于短时跟踪，平均序列长度少于 600 帧，且目标几乎始终出现在视频帧中。在短时数据集上的评估结果不能反映跟踪器在实际应用中的真实性能，从而限制了其在实际中的部署。
类别不平衡 (Category bias)：一个鲁棒的跟踪系统应该表现出对目标所属类别不敏感的稳定性能，这意味着跟踪算法的训练和评估都应避免类别偏差 (类别不平衡)。然而现有的数据集通常只包含少数类别且视频数量不平衡 (详情见表 1)。

表 1：LaSOT 与文献中流行的密集数据集的比较

在文献中已经提出了许多数据集来解决上述问题，然而没有一个能同时解决所有问题，这促使了 LaSOT 的提出。

1.1 贡献

基于以上动机，论文作者团队提供了一个新的单目标跟踪 (LaSOT) 数据集，具有多方面的贡献：
(1) LaSOT 包含 1400 个视频，平均每个序列 2512 帧。每一帧都经过检查和人工标注。此外，LaSOT 包含 70 个类别，每个类别由 20 个序列组成。LaSOT 是迄今为止最大的具有高质量人工密集标注的目标跟踪数据集。
(2) 与现有数据集不同， LaSOT 既提供了边框标注，也提供了丰富的自然语言解释，这被证明对不同的视觉任务包括视觉跟踪是有益的。
(3) 评估了 35 中不同设置下的具有代表性的跟踪器，并用不同的指标分析了它们的性能。

2. 相关工作

3. LaSOT 数据集

3.1 设计原则

(1) 大规模 (Large-scale) ：LaSOT 的关键动机之一是需要大量训练数据的深度跟踪器提供数据集，这些跟踪器需要大量的带标注的序列。
(2) 高质量的稠密标注 (High-quality dense annotations)：如前所述，带有高质量稠密标注的跟踪数据集对于训练和评估鲁棒的跟踪器至关重要。为此 LaSOT 中的每一个序列都带有经过仔细检查和微调的标注。
(3) 长时跟踪 (Long-term tracking)：与短时跟踪相比，长时跟踪更能反应跟踪器的真实性能。LaSOT 保证每个序列至少包含 1000 帧，LaSOT 中的平均序列长度大约在 2500 帧。
(4) 类别平衡 (Category balance)：一个鲁棒的跟踪器应该表现出对目标所属类别不敏感的稳定性能，为此，LaSOT 中包含了 70 个不同类别的对象集，每个类别包含相同数量的视频。
(5) 标签全面 (Comprehensive labeling)：为了激发更多的探索，LaSOT 的一个原则是为视频提供全面的标注，包括视觉和语言标注。

3.2 数据收集

LaSOT 包含 70 个目标类别，大多数类别是从 ImageNet 的 1000 类中选取而来，小部分是为流行的跟踪应用 (比如无人机) 而精心选择的。LaSOT 为每个类别提供相同数量的序列以避免潜在的类别不平衡。LaSOT 的每个类别里包含了 20 个对象，反映了自然场景的类别平衡性和多样性。
最终，LaSOT 从 Youtube 选取了 1400 个序列，352 万帧，组成了这个大规模数据集。LaSOT 的平均视频长度为 2512 帧，最短的视频有 1000 帧，最长的视频有 11397 帧。

3.3 标注

为了提供一致的边框标注，定义了一种确定的标注策略：给定一段具有特定跟踪目标的视频，对于每一帧，如果跟踪目标出现在帧中，绘制直立的边框并紧贴目标，使得边框包含目标的任何可见部分；否则就标注一个“目标不存在”标签，表示目标要么不在视野中，要么被完全遮挡。需要注意的是，这种策略不能保证最小化框中的背景区域。但该策略确实提供了一种一致的标注，使得学习物体运动时相对稳定。
虽然上述策略在大多数情况下都很有效，但也存在例外情况。一些物体 (比如老鼠) 可能有细长且极易变形的部分 (比如尾巴)，这不但会对物体的外形造成严重的噪声，还对目标物体的定位只提供了极少的信息。LaSOT 中会谨慎识别这些物体，并为它们指定特定的标注规则 (比如绘制边框时忽略老鼠的尾巴)。
序列的自然语言说明有一个描述目标颜色、行为和环境的句子表示。LaSOT 中为所有视频提供了 1400 个句子。语言描述旨在为跟踪提供辅助帮助。

图 2：LaSOT 的示例序列和标注，为每个序列都提供了自然语言说明

3.4 属性

为了实现对跟踪器性能的进一步分析，每个序列都带有 14 个属性的标记，包括：光照变化 (illumination variation, IV)，完全遮挡 (full occlusion, FOC)，部分遮挡 ( partial occlusion, POC)，变形 (deformation, DEF)，运动模糊 (motion blur, MB)，快速运动 (fast motion, FM)，尺度变化 (scale variation, SV)，相机运动 (camera motion, CM)，旋转 (rotation, ROT)，背景干扰 (background clutter, BC)，低分辨率 (low resolution, LR)，视角变化 (viewpoint change, VC)，视野之外 (out-of-view, OV) 和长宽比变化 (aspect ratio change, ARC)。这些属性在表 2 中定义。

属性	定义	属性	定义
CM	相机突然运动	VC	视角显著影响目标外观
ROT	图像中的目标旋转	SV	边框大小比例超出范围 $[0.5, 2]$
DEF	目标在跟踪过程中变形	BC	背景与目标外观相似
FOC	视频中目标被完全遮挡	MB	目标区域由于目标或相机运动变得模糊
IV	目标区域的照明发生变化	ARC	边框长宽比超出范围 $[0.5, 2]$
OV	目标完全离开视频帧	LR	在至少 1 帧中目标边框大小少于 1000 像素
POC	视频中目标被部分遮挡	FM	目标的运动幅度大于边框的大小

表 2：LaSOT 中 14 中不同属性的描述

图 4：LaSOT 中各属性序列的分布及与其他数据集的比较

3.5 评估方案

方案 1：将 1400 个序列全部用于评估跟踪器性能。研究者需要使用 LaSOT 以外的序列来开发跟踪算法。方案 1 旨在为跟踪器提供大规模的评估数据。
方案 2：将 LaSOT 分为训练集和测试集。根据 80/20 法则 (也就是帕累托法则)，从每个类别的 20 个视频中选 16 个用于训练，其余的用于测试。具体来说，训练集包含 1120 个视频，共 283 万帧；测试集包含 280 个视频，共 69 万帧。方案 2 旨在同时为跟踪器提供大量的测试数据和评估数据。

4. 评估

4.1 评估指标

使用 One-Pass Evaluation (OPE) 作为量化评估标准 (在整个测试序列中运行跟踪器，给出第一帧的目标 ground truth 初始化追踪器。期间不再初始化)，并计算了两种评估方案下不同跟踪器的精度、归一化精度和成功率。
通过计算跟踪结果与 ground truth 边框中心点之间的像素距离得到精度，在评估模型时，会根据不同的距离阈值 (Location error threshold)，计算出对应阈值的precision，并画出横坐标为阈值，纵坐标为精度的曲线，最终通过特定阈值 (比如 20 个像素) 的精度来对模型的性能进行排序。
由于精度指标对目标大小和图像分辨率敏感，所以将精度进行了归一化，在评估模型时，会根据不同的归一化精度阈值 (Normalized distance error threshold)，计算出对应阈值的精度，并画出横坐标为阈值，纵坐标为归一化精度的曲线。最终根据阈值在 $0$ 到 $0.5$ 之间曲线的 AUC (the Area Under the Curve) 来对模型的性能进行排序。
成功率通过计算预测的边框和 ground truth 边框的 IoU (the Intersection over Union) 得到，画出横坐标为阈值，纵坐标为成功率的曲线，最终通过该曲线的 AUC 来对模型的性能进行排序。

4.2 评估的跟踪器

在 LaSOT 上评估了 35 个跟踪器，包括深度跟踪器，基于人为手动设计特征的、基于深度特征的和基于正则化方法的相关滤波跟踪器，使用模型融合的跟踪器，基于稀疏表示的跟踪器和使用其他表示的跟踪器。

表 4：评估的跟踪器相关信息总结。Sparse：稀疏表示，Color：颜色特征或颜色直方图，Pixel：像素亮度，HoG：梯度直方图，H or B：哈尔或二值特征，Deep：深度特征，PF：粒子滤波，RS：随机采样，DS：稠密采样

4.3 基于方案 1 的评估结果

整体性能

如图 5 所示，MDNet 取得了最好的精度 0.374 和成功率 0.413，VITAL 取得了最好的归一化精度 0.484。MDNet 和 VITAL 都是采用在线学习方式，导致计算代价大和速度慢。SimaFC 使用深度网络从大量视频中离线学习，分别取得了 0.341 的精度，0.449 的归一化精度和 0.358 的成功率，取得了具有竞争力的结果。表现最好的相关滤波跟踪器是 ECO，精度为 0.298，归一化精度为 0.358，成功率为 0.34。
与其他现有的稠密数据集 (比如 OTB-2015) 上的跟踪性能作比较，LaSOT 上的性能由于涉及大量的非刚体目标和其他挑战性因素而严重退化。图 5 表明的一个现象是，性能前 7 的跟踪器都利用了深度特征，证明其在处理外观变化方面的优势。

图 5：基于方案 1 的评估结果

基于属性的性能

图 6 中展示了三个最有挑战性的属性的结果：目标快速移动，在视频帧外和被完全遮挡。

图 6：基于方案 1 的各追踪器在三个最具挑战性属性上的性能，用成功率衡量

定性评估

图 7 展示了 MDNet, SiamFC, ECO, PTAV, Staple 和 MEEM 对 6 中典型挑战 (目标快速移动，被完全遮挡，低分辨率，在视频帧外，长宽比变化和背景干扰) 的定性评估结果。

对于具有目标快速移动、被完全遮挡和在视频帧外属性的视频 (比如 Yoyo-3, Goldfish-4 和 Basketball-15)，跟踪器很容易丢失目标，因为现有的跟踪器通常从一个小的局部区域开始执行定位。一种可能的解决方案是使用针对特定实例的检测器来定位目标，用于后续的跟踪。
在低分辨率视频 (比如 Pool-4) 中，由于对小目标的无效表征，容易导致跟踪器预测结果漂移。基于深度特征的跟踪器采用结合多种尺度的特征的方式，将细节纳入表示中，以解决该问题。
由于跟踪器要么忽视了具有目标长宽比变化属性的视频，要么只采用简单的应对措施 (比如随机搜索或图像金字塔)，导致其成为了一个难题。受基于深度学习的目标检测器的启发，可以利用经典回归模型来减少其对目标跟踪的影响。
对于具有背景干扰属性的视频，由于目标和背景的区别度较低，导致跟踪器预测结果产生漂移。针对该问题的可行方案是利用上下文信息来增强判别性。

图 7：对 6 个经典困难挑战的定性评估：自上而下自左到右分别是：目标快速移动，被完全遮挡，低分辨率，在视频帧外，长宽比变化和背景干扰

4.4 基于方案 2 的评估结果

在方案 2 中，将 LaSOT 分为训练集和测试集，评估结果如图 8 所示，也采用精度、归一化精度和成功率进行评估比较。与方案 1 中的结果类似，MDNet 和 VITAL 的性能最优，精度分别为 0.373 和 0.36；归一化精度为0.46 和 0.453；成功率为 0.397 和 0.39。SiamFC 以 0.339 的精度、0.42 的归一化精度和 0.336 的成功率排名第三。尽管准确性得分略低于 MDNet 和 VITAL，SiamFC 运行速度快很多，在准确率和效率之间表现出较好的平衡。
除了对每一种跟踪算法进行评估外，论文作者团队还对两种具有代表性的跟踪算法 MDNET 和 SiamFC 进行了重新训练，并对其进行了评估。评估结果表明，与在没有重训练的性能相似。一个可能的原因是重新训练过程的配置可能和原作者所使用的不同。由于 LaSOT 比以往的数据集更具挑战性，可能需要专门的配置来训练这些跟踪器。

图 8：基于方案 2 的评估结果

4.5 LaSOT 上的重训练实验

表 4 展示了 SiamFC 在 OTB-2013 和 OTB-2015 上的结果，并与在 ImageNet 上训练的原始 SiamFC 的性能进行了比较。需要注意的是，训练使用彩色图像，并应用 3 个比例的金字塔进行跟踪。最后在两个评测集上观察到了一致的性能提升，说明了针对深度跟踪器的特定大规模训练集的重要性。

表 4：在 LaSOT 上对 SiamFC 重训练

5. 总结

LaSOT 是迄今为止最大的具有高质量标注的跟踪数据集。LaSOT 为每个序列都提供了语言标注，旨在鼓励在集成视觉和语言特征以实现鲁棒跟踪方面的探索。LaSOT 希望缓解数量日益增长的深度跟踪模型和用于训练的大规模数据集的短缺之间的矛盾，同时为现实中的各类跟踪器提供更真实的评估数据。基于两种评估方案的 LaSOT 上的评估结果也表明了目标跟踪还有很大的进步空间。

御镜灵

关注

20
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
LaSOT: A High-quality Benchmark for Large-scale Single Object Tracking

LaSOT 是迄今为止最大的具有高质量标注的跟踪数据集。LaSOT 为每个序列都提供了语言标注，旨在鼓励在集成视觉和语言特征以实现鲁棒跟踪方面的探索。LaSOT 希望缓解数量日益增长的深度跟踪模型和用于训练的大规模数据集的短缺之间的矛盾，同时为现实中的各类跟踪器提供更真实的评估数据。基于两种评估方案的 LaSOT 上的评估结果也表明了目标跟踪还有很大的进步空间。
复制链接

扫一扫