GOT-10k: A Large High-Diversity Benchmark for Generic Object Tracking in the Wild
INTRODUCTION
GOT-10k包含了超过10000条视频,人工标注边界框超过150万个。分为563个目标类别,87种运动模式。
Purpose:
⋅ \cdot ⋅ provide a unified platform for deep trackers;
⋅ \cdot ⋅ make tracking data and evaluation metrics more general.
Contribution:
Dataset. GOT-10k包含了超过10000条视频,人工标注边界框超过150万个。分为563个目标类别,87种运动模式。目标均为真实世界中的运动物体。
Benchmark. 在GOT-10k上测试了多个现今算法并评估了他们的表现。讨论了现有工作的限制以及未来工作的可能方向。
Evaluation Protocol. 引入了one-shot principle以达到对deep trackers的无偏差评估;进行了一系列实验来选择紧凑而具有高度代表性的测试子集,从而实现高效评估。
Dataset construction
Collection of videos:
使用了WordNet作为骨干来筛选目标和运动类别。
每个视频包含两个标签:object和motion。四个名词作为initial pool: animal, person, artifact, natural object and part。motion class延伸为locomotion, action and sport。生成出来的字典先淘汰掉不常见的/静态的/重复的词组,然后根据Youtube搜索数量进行排序,选择rank高的标签。
Annotation of trajectories:
⋅ \cdot ⋅ 按照目标检测的标准来设计标定框,即标定框为正矩形;
⋅ \cdot ⋅ 提供可见比率的注释,
可见比率是指目标可见部分的百分比,分为0,15%,30%,45%,60%,75%,90%,100%七种情况。
Dataset splitting:
数据集分为训练,验证,测试三个子集。
训练集和测试集之间需要有明确的隔离以验证模型的泛化能力:
——one-shot principle,训练集和测试集不重叠;
设计紧凑的测试集以减少模型测试耗时:
——通过研究视频数量/目标类别/运动类别/重复时间的影响,最终的测试子集包含180个视频,84类移动物体和32种运动形式;除了person类之外,训练视频和测试视频之间的所有对象类都是不重叠的;而对于人而言,训练和测试之间的运动类别并不重叠。每个跟踪器进行3次实验并平均得分以确保可靠的评估。
EXPERIMENTS
Baseline models
⋅ \cdot ⋅ Deep learning based trackers.
——MDNet, GOTURN, CF2, SiamFC, CFNet, SiamFCv2, CFNetc2.
⋅ \cdot ⋅ Correlation filters based trackers.
——CSK, KCF, DAT, LCT, SAMF, DSST, Staple, SRDCF, SRDCFdecon, CCOT, BACF, ECO.
⋅ \cdot ⋅ Traditional trackers.
——LK, IVT, L1APG, MEEM.
Evaluation Methodology
⋅ \cdot ⋅ Average overlap (AO)
——GT和算法预测的目标框的overlap的平均值(AUC)。
⋅ \cdot ⋅ Success rate (SR)
——ovelap超过50%的帧数的百分比。
Performance
Evaluation by Challenges
⋅ \cdot ⋅ Occlusion. 可见部分 v ≤ 0.6 v\le0.6 v≤0.6
⋅ \cdot ⋅ Scale variation. 尺度变化定义为 m a x i s i / m i n i s i max_i s_i /min_i s_i maxi