文章目录
数据库简介
- 每一个视频包含种类和运动模式两个标签
- 类别包含五个子类:动物,机动车辆,人员,助力物体和部分运动物体,且类别和语义信息遵循WordNet
- 运动模式基本遵循WordNet,只有六种例外:摄影机动作,舞狮舞龙,跑酷,手推车动力,起跳和高低杠,
创新点
- Got-10k包含560种运动物体的87种运动模式,提供了10,000个视频片段包含1,500,000个人工标注的boundingbox,种类更为丰富
- GOT-10k是迄今为止第一个使用WordNet语义层次结构指导类人口的视频轨迹数据集,可确保对各种运动物体进行全面且相对公正的覆盖。
- GOT-10k首次引入了用于跟踪器评估的单发协议,其中培训和测试课程是零重叠的。
- GOT-10k提供了其他标签,例如运动类别和对象可见比率,从而促进了运动感知和遮挡感知跟踪器的开发。
- test set 的420个视频包含了84物体类别和31个运动类别,让实验更加接近真实评估
- 提出了类别平衡矩阵mAO和mSR来评价跟踪器效果
- 测试了39种主流跟踪器
- 测试了训练集不同因素对深度跟踪器结果的影响
- 保护test data以防止微调和过拟合的出现
- 网址GOT-10k
这个数据集下载需要提供邮箱,还必须是学校或者特定机构的,反正普通的QQ邮箱和163邮箱是不行的
主要动机
- OTB,VOT等数据库,种类太少,规模太小且没提供训练集
- LaSOT,TrackingNet,种类窄(20-71种)且训练集和测试集之间类别有重叠,这对模型的泛化以及评价结果会产生偏差
- 这两点也是与其他数据库的最大差别
数据库结构
数据采集
- 遵循WordNet对名词分类的树状分类方式对名词进行分类
- 对所有名词去除已经消失的以及不常用的名词,再对剩余的名词及逆行分类,分类后按照youTube上上传相关名词的热度以及上传视频量进行排序
- 数据在类别上存在一些不平衡,这种现象可以被称为长尾分布(Long-Tailed Distribution),这种数据分布现象更接近现实数据分布,对提高模型泛化性有利
- “人”这个类别占到整个数据库的24%
BB标注
- bounding box标定为旋转举行,以包含最少的目标背景像素为目的
- 在标签中增加“可见比例”以表明目标物体在途中被遮挡或者被画框截断的比例是多少,每个类之间的差距是15%
数据集划分
- 训练数据和测试数据需要有明显的差异化以达到泛化模型的作用,故训练数据中除了“人”,其他类别没有重叠。人的不同运动类别在训练集和测试集中也没有重叠。
- 运动类别多,视频数量300,
- 具体分类:
实验结果
模型选择
- 基于深度网络的模型,均在GOT-10k上重新训练过
- 相关滤波法模型
- 传统方法
评估方法
- AO(average overlap)平均重合度
- mAO,考虑到类别平衡,避免多帧序列在平均计算中占据较大权重,故计算公式如下:
C C C代表种类数, S c S_c Sc代表某一种类下的视频序列数 - SR:成功率。指在一定AO阈值下成功跟踪的准确度,取0.5和0.75两个阈值
- mSR的计算方法同mAO
评估挑战
对影响目标跟踪结果的主要因素进行指标量化以评估不同因素对模型效果的影响
- 目标被遮挡和截断
度量方法: ( 1 − v ) (1-v) (1−v), v v v代表目标可见比例 - 目标尺度大小变化
s i / s i − T , s i − T / s i {s_i/s_{i-T}, s_{i-T}/s_i} si/si−