PoseTrack-Dataset

 

和以往数据集之间的对比:

数据来源:

基于MPII 的 raw video data 

选择41-298相邻帧的视频片段

选择拥挤的场景,场景中包含多人,人与人之间互相铰接,在参与多种动态活动

选择的目的包括:

  • 让视频包含大量的肢体运动和姿态,以及外观变化
  • 包含高度的相互遮挡和截断,目标会出现部分或者全部消失和重现等情况
  • 人的大小会在视频中发生变化,因为人的运动或者场景的缩放
  • 因此在同一个视频序列中可见的人的数量也会变化

注释

  • 人的位置
  • 人的标签
  • 身体姿态
  • 忽略的区域

忽视这样的区域:包含人群,包含的目标的姿态很难被可靠的确定(由于较差的可视性)

然后,对视频中每个人的头部边界框进行注释,并为每个人分配一个跟踪ID。我们为出现在视频中的每个人分配一个唯一的跟踪ID,直到这个人离开摄像机的视场。(遮挡并不会改变ID,遮挡发生前后同一目标ID不变)这是对于视频中某个镜头而言的,一个视频可能包含多个镜头之间的相互切换,切换后ID不会保持一致。

对每个被跟踪的人的姿态,在整个视频上进行注释。

对于每个人,注释15个部分,包括头,鼻子,颈,肩膀,肘,手腕,髋关节,膝盖,脚踝

使用了VATIC tool[48] 工具加速标注过程,相邻帧之间标注通过插值完成

部分关节没有被注释,这些关节很难被可靠定位,因为高度的遮挡或者困难的图像条件

这已经被证明是一个更快的选择,而不是要求注释器猜测关节的位置和/或标记为闭塞。

最后数据集合包含了总共:

  • 550个视频
  • 66,374帧
  • 分292个训练视频,50个验证视频和208个测试视频(分的原则遵循MPII)
  • 大多数视频长度在41到151帧之间,大概是5秒左右,不同视频长度导致不同的帧率
  • 每个视频序列,注释中间的30帧
  • 另外在验证和测试集中,每隔4帧进行稠密标注(with a step of four frames?),目的在于测试跟踪身体关节的稳定性以及长期跟踪身体关节的能力。
  • 总共23,000标注帧,153,615个标注姿态

标注统计如下图所示

  • 大部分的视频包含大量的人
  • 左边中间的图中,track-length的突然下降是视频序列固定长度导致的

标注如下图所示

挑战

  • 单帧的姿态估计,和MPII ,MSCOCO关键点 相似,但是是使用pose track数据集
  • 视频中的姿态估计,挑战是在单帧中进行的,但是,数据包括了该标注帧的前后帧,让算法可以挖掘视频信息用于鲁棒的单帧姿态估计
  • 姿态跟踪,这个任务要求提供时间域上保持一致的,姿态估计结果。评估包括独立的姿态估计精度和ID时间域上一致性的评估。

评价服务器

我们提供了一个在线评估服务器来量化不同方法在测试集上的性能。
这不仅可以防止对测试数据的过度拟合,而且可以确保所有方法都以完全相同的方式进行评估,使用相同的基本事实和评估脚本,使定量比较有意义。此外,它还可以作为所有可用结果和方法的中心目录。

实验设置和评估指标

PCKh(percentage of correct keypoints according to head size) 

用于评价一个身体部位预测正确与否,当预测位置和gt距离小于阈值,则认为是预测正确,阈值gt中头部边界框对角线长度的60% 的 50%,即30%的头部边界框对角线长度。

分两种评估指标

  • 多人姿态估计 mAP

L. Pishchulin, E. Insafutdinov, S. Tang, B. Andres, M. Andriluka, P. Gehler, and B. Schiele. Deepcut: Joint subset partition and labeling for multi person pose estimation. In CVPR, 2016.  

  • 铰接式多人位姿跟踪:使用MOT中的指标MOTAMOTP :

A. Milan, L. Leal-Taix´e, I. Reid, S. Roth, and K. Schindler. Mot16: A benchmark for multi-object tracking. arXiv:1603.00831 [cs], 2016.

首先,对于每一帧中每一个关节种类,计算预测值和真值之间的距离

然后,使用个匹配算法进行匹配,(应该是最小总距离匹配

最后,计算MOTA,MOTP,Precison,Recall

State of the Art 分析

  • 这个posetrack是一个新问题,仅有两篇工作,这两篇用来做baseline

E. Insafutdinov, M. Andriluka, L. Pishchulin, S. Tang, E. Levinkov, B. Andres, and B. Schiele. Arttrack: Articulated multi-person tracking in the wild. In CVPR, 2017.

U. Iqbal, A. Milan, and J. Gall. PoseTrack: Joint multiperson pose estimation and tracking. In CVPR, 2017.

  • 这两篇工作中所使用的视频较短,本文所使用的视频较长(5倍)左右,上述两种方法使用全视频的图割(graph-partition)的方法十分耗时,这工作里进行优化。
  • 通过和17届ICCV关联扩大评估范围,设置在线的评估服务器,这里选择提交结果top5的方法进行分析。多目标姿态估计和姿态跟踪两个方面分别根据mAP和MOTA排名各选5个。

 

主要的观察结果:

分二阶段设计

第一个观察结果是所有提交都遵循两阶段的通过检测进行跟踪的设计

第一阶段,结合人检测和单帧姿态估计方法,在单帧中进行人姿态估计。具体单帧姿态估计的方法有很多,最好的三种姿态跟踪方法基于各自不同的姿态估计方法(pro-Tracker(Mask-RCNN), BUTD,PoseTrack-baseline(PAF) 和 ArtTarck-baseline(Faster-RCNN+DeepCut))。论文指出,如下图所示,最好的4种姿态估计方法中,有3种是基于PAF的,同时比较这三种PAF方法,表明通过引入渐进式改进,可以在PAF框架内实现较大的收益。

在第二阶段,单帧姿态估计在时间域上联系起来。对于大多数的方法,分配是在身体姿势的层次上执行的,而不是单个的部分。(这里可能理解有缺陷,不知道它区分的是pose-level,body-part-level 和 person-level?)

在实践中,这是通过给定一个人的边界框,然后在边界框中进行姿态估计,最后热点图的最大值被认为是 belonging together?

当存在明显的多人互相遮挡情况下,这种方法是次优的,但大多数的方法忽略了这种情况,可能是因为出于对算法的复杂度和速度的考虑。

ProTracker[11]的最佳性能依赖于基于匈牙利算法的帧间简单匹配,匹配是基于人的边界框之间的IOU分数。不懂的可以参考我的文章:匈牙利算法

这些方法都不是端到端的,从某种意义上讲,是能直接从视频中推断出清晰的人的轨迹。

最好的5种姿态跟踪的方法MOTA得分都在50左右

训练数据

大多数提交的作品都认为需要将我们的训练集与COCO、mpi - pose等静态图像数据集结合起来,得到一个具有更大外观变异性的联合训练集。最常见的程序是对外部数据进行预培训,然后对培训集进行微调

我们的训练集由2,437人组成,61,178个带注释的身体姿势,是COCO和MPII-Pose的补充,这两数据库包含了一个数量级的更多的个人,但不提供运动信息。

我们使用ArtTrackbaseline 来量化额外数据培训带来的性能改进。如下表所示,扩展训练数据MPII-Pose数据集大大提高了性能55.5->68.7:

我们的数据集和 MPII-Pose仍然比单独使用MPII-Pose更好(66.4 vs. 68.7),这表明数据集确实是互补的。

在我们的评估方法中,除了简单地交叉验证一些超参数外,没有任何一种方法对所提供的视频序列使用任何形式的学习。这可能部分是因为我们的训练集相对较小。

我们在这个数据集的工作上得到的启发之一,创建真正大型的带注释的铰接位序列数据集是一个重大挑战。

我们设想,未来的工作将把人工标记的数据与其他技术结合起来,例如从其他数据集(如[5])转移学习、通过从可靠关键帧[6]传播注释推断姿态序列、以及利用合成训练数据(如[47])。

数据集难点

我们通过包含来自MPII人体姿势数据集的关键帧周围的视频来组成我们的数据集,使得这些视频种包含多个人和非静态场景。
其基本原理是创建一个数据集,该数据集对于跟踪非常重要,要求所使用的方法能正确地解决某些影响,例如人与人之间的遮挡。

在下图中,我们可视化了评估方法在每个测试序列上的性能。

我们观察到测试序列之间,在姿态估计和跟踪的难度方面都有很大的不同。

为最佳表现提交,ProTracker[11]不同视频序列种的性能相差很大大, MOTA从80掉到0以下的分数。

该注意的是,所有方法在这方面的表现相仿(曲线的形状)

更困难的序列可能需要一些方法,而不是基于当前性能最好的方法中使用的基于帧到帧分配的简单跟踪组件。

为了鼓励提交明确地解决数据集中困难部分的挑战,我们定义了数据的简单/中等/困难分割,并报告了每个分割以及完整集的结果。

评价指标

MOTA评价指标的不足之处在于没有考虑到预测跟踪的置信度。结果要取得很好MOTA评分,需要对姿态检测器阈值进行调整,以便只提供可靠的跟踪和位姿进行评估。(这里意思是,track 的置信度需要自己调一个阈值,评估系统并没有考虑进来)

对评价指标的一个潜在改进是要求位姿跟踪方法为每个预测轨迹分配置信度得分,这在位姿估计和目标检测中很常见。

这将允许一个人计算一个最终得分作为MOTA计算的一系列跟踪得分的平均值。目前的姿态跟踪方法通常不能提供这样的置信度得分。我们认为,将评估协议扩展到包含置信度评分是未来的一个重要方向。

 

数据集分析

为了更好地理解当前身体姿态跟踪方法的成功和失败,我们分析了它们在测试集序列范围内的性能。

为此,我们对每个序列求,7种评估方法的MOTA评分的平均值。

这样的平均分可以作为对当前计算机视觉方法中序列难度的估计。

然后我们将序列按平均值排序。

首先,我们观察到所有的方法在简单序列上的表现都是相似的。

下图显示了一些平均MOTA超过75%的简单序列。

随着视频序列复杂度的增加,跟踪精度下降。下图显示一些困难序列,MOTA精度低于0。这些序列通常包括强烈重叠的人,以及人与相机的快速运动。

我们接着分析跟踪和姿态估计的精度是如何受姿态复杂度影响的。作为一个序列的位姿复杂度的度量,我们使用序列中每个位姿与平均位姿的平均偏差。(这个和MPII相似)

计算的复杂度得分用于对视频序列,根据位姿复杂度,从低到高的进行排序,并列出每个序列的mAP。

基于可视化的目的,我们根据位姿复杂度得分将排序后的视频序列划分为大小为10的视频片段,并报告每个视频片段的mAP。我们观察到,随着姿态复杂度的增加,人体姿态估计和跟踪性能都显著下降。

注意,在大多数情况下,更高的映射所反映的更精确的位姿估计确实对应更高的MOTA。然而,在准确估计姿态的序列(mAP很高)中观察是有指导意义的,但是跟踪结果尤其差,其中一个序列如图6(8)所示

这个序列的特点是大量的人和快速的摄像机运动,这可能会混淆简单的帧到帧关联跟踪的评估方法。请参阅补充资料,以获取更多的例子和具有挑战性的序列分析。

 

  • 8
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 11
    评论
评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值