PoseTrack-Dataset

最新推荐文章于 2024-06-06 09:41:54 发布

梦之泪殇

最新推荐文章于 2024-06-06 09:41:54 发布

阅读量9.5k

点赞数 9

分类专栏： DL posetrack

DL 同时被 2 个专栏收录

7 篇文章

订阅专栏

posetrack

5 篇文章

订阅专栏

和以往数据集之间的对比：

数据来源：

基于MPII 的 raw video data

选择41-298相邻帧的视频片段

选择拥挤的场景，场景中包含多人，人与人之间互相铰接，在参与多种动态活动

选择的目的包括：

让视频包含大量的肢体运动和姿态，以及外观变化
包含高度的相互遮挡和截断，目标会出现部分或者全部消失和重现等情况
人的大小会在视频中发生变化，因为人的运动或者场景的缩放
因此在同一个视频序列中可见的人的数量也会变化

注释

人的位置
人的标签
身体姿态
忽略的区域

忽视这样的区域：包含人群，包含的目标的姿态很难被可靠的确定（由于较差的可视性）

然后，对视频中每个人的头部边界框进行注释，并为每个人分配一个跟踪ID。我们为出现在视频中的每个人分配一个唯一的跟踪ID，直到这个人离开摄像机的视场。（遮挡并不会改变ID，遮挡发生前后同一目标ID不变）这是对于视频中某个镜头而言的，一个视频可能包含多个镜头之间的相互切换，切换后ID不会保持一致。

对每个被跟踪的人的姿态，在整个视频上进行注释。

对于每个人，注释15个部分，包括头，鼻子，颈，肩膀，肘，手腕，髋关节，膝盖，脚踝

使用了VATIC tool[48] 工具加速标注过程，相邻帧之间标注通过插值完成

部分关节没有被注释，这些关节很难被可靠定位，因为高度的遮挡或者困难的图像条件

这已经被证明是一个更快的选择，而不是要求注释器猜测关节的位置和/或标记为闭塞。

最后数据集合包含了总共：

550个视频
66,374帧
分292个训练视频，50个验证视频和208个测试视频（分的原则遵循MPII）
大多数视频长度在41到151帧之间，大概是5秒左右，不同视频长度导致不同的帧率
每个视频序列，注释中间的30帧
另外在验证和测试集中，每隔4帧进行稠密标注(with a step of four frames？)，目的在于测试跟踪身体关节的稳定性以及长期跟踪身体关节的能力。
总共23,000标注帧，153,615个标注姿态

标注统计如下图所示

大部分的视频包含大量的人
左边中间的图中，track-length的突然下降是视频序列固定长度导致的

标注如下图所示

挑战

单帧的姿态估计，和MPII ，MSCOCO关键点相似，但是是使用pose track数据集
视频中的姿态估计，挑战是在单帧中进行的，但是，数据包括了该标注帧的前后帧，让算法可以挖掘视频信息用于鲁棒的单帧姿态估计
姿态跟踪，这个任务要求提供时间域上保持一致的，姿态估计结果。评估包括独立的姿态估计精度和ID时间域上一致性的评估。

评价服务器

我们提供了一个在线评估服务器来量化不同方法在测试集上的性能。
这不仅可以防止对测试数据的过度拟合，而且可以确保所有方法都以完全相同的方式进行评估，使用相同的基本事实和评估脚本，使定量比较有意义。此外，它还可以作为所有可用结果和方法的中心目录。

实验设置和评估指标

PCKh（percentage of correct keypoints according to head size)

用于评价一个身体部位预测正确与否，当预测位置和gt距离小于阈值，则认为是预测正确，阈值gt中头部边界框对角线长度的60% 的 50%，即30%的头部边界框对角线长度。

分两种评估指标

多人姿态估计 mAP:

L. Pishchulin, E. Insafutdinov, S. Tang, B. Andres, M. Andriluka, P. Gehler, and B. Schiele. Deepcut: Joint subset partition and labeling for multi person pose estimation. In CVPR, 2016.

铰接式多人位姿跟踪：使用MOT中的指标MOTA和MOTP ：

A. Milan, L. Leal-Taix´e, I. Reid, S. Roth, and K. Schindler. Mot16: A benchmark for multi-object tracking. arXiv:1603.00831 [cs], 2016.

首先，对于每一帧中每一个关节种类，计算预测值和真值之间的距离

然后，使用个匹配算法进行匹配，（应该是最小总距离匹配）

最后，计算MOTA,MOTP,Precison,Recall

State of the Art 分析

这个posetrack是一个新问题，仅有两篇工作，这两篇用来做baseline

E. Insafutdinov, M. Andriluka, L. Pishchulin, S. Tang, E. Levinkov, B. Andres, and B. Schiele. Arttrack: Articulated multi-person tracking in the wild. In CVPR, 2017.

U. Iqbal, A. Milan, and J. Gall. PoseTrack: Joint multiperson pose estimation and tracking. In CVPR, 2017.

这两篇工作中所使用的视频较短，本文所使用的视频较长（5倍）左右，上述两种方法使用全视频的图割（graph-partition)的方法十分耗时，这工作里进行优化。
通过和17届ICCV关联扩大评估范围，设置在线的评估服务器，这里选择提交结果top5的方法进行分析。多目标姿态估计和姿态跟踪两个方面分别根据mAP和MOTA排名各选5个。

主要的观察结果：

分二阶段设计

第一个观察结果是所有提交都遵循两阶段的，通过检测进行跟踪的设计

第一阶段，结合人检测和单帧姿态估计方法，在单帧中进行人姿态估计。具体单帧姿态估计的方法有很多，最好的三种姿态跟踪方法基于各自不同的姿态估计方法（pro-Tracker(Mask-RCNN), BUTD,PoseTrack-baseline(PAF) 和 ArtTarck-baseline(Faster-RCNN+DeepCut)）。论文指出，如下图所示，最好的4种姿态估计方法中，有3种是基于PAF的，同时比较这三种PAF方法，表明通过引入渐进式改进，可以在PAF框架内实现较大的收益。