《The Progress of Human Pose Estimation: A Survey and Taxonomy of Models Applied in 2D Human Pose Estimation》
2020 IEEE Access 论文链接
2D人体姿态估计入门指南。
文章目录
1 预备知识
人体姿态估计:基于图片来定位人体的关节点和刚性部件。
根据一张图中待检测人的数量,可分为单人姿态检测和多人姿态检测。显然多人姿态检测任务更加困难。
姿态估计有两种常用范式:
-
Top-down:先检测每个人的bbox,再对每个人分别做姿态估计。(bbox->pose)
缺点:1)detection阶段遗漏的目标人无法恢复 2)运行时间与人数正相关 3)对位置相近的人表现较差
-
Bottom-up:定位关键点,再进行组合。(localizing->grouping)
解决了Top-down范式的缺点1)2),还可利用全局语义信息,但对重叠较多的人的姿态估计仍比较困难
姿态估计的应用领域:动作识别,人体追踪,动画,游戏……
2 姿态估计的相关部件
1)骨干网络
AlexNet / VGG --> R-CNN系列 / FPN / Mask R-CNN–> ResNet
ResNet是目前最主流的姿态估计骨干网络。
2)损失函数
L1 loss:对outliers不敏感(鲁棒的),但模型优化较困难
L2 loss:对outliers敏感
Cross-Entropy loss:衡量预测概率与真值的距离
3)数据集
名称 | 场景 | 图片数量 | 标记关节点数 | 待检测人数 |
---|---|---|---|---|
FLIC | 电影片段 | 5003 | 10 | single/multiple |
LSP Ext | 运动 | 11000+1000 | 14 | single |
MPII | 日常生活 | 25000 | 15 | single/multiple |
COCO | 无限制 | 200000 | 17 | multiple |
COCO和MPII是目前最常用的。
4)评价指标
关节检测率相关指标:预测关节点位置与gt距离小于某参考值时,认为该关节点被检测到。
PCP (Percentage of Correct Parts):以关节点所在肢干长度的一半为参考。由于该指标对短肢干更严格,逐渐被弃用。- PDJ (Percentage of Detected Joints):以人体躯干直径(从左肩到右臀)的某个比例为参考。e.g. PDJ@0.2,通过改变这个比例,可以得知定位的精确度。
- PCK (Percentage of Correct Key-points):以某个设定阈值为参考。
- PCKh :以头部长度(头部gt bbox的对角线长度的60%)的某个比例为参考。PCKh@0.5是目前常用的评价指标。
- AUC (Area Under the Curve):评估PCK不同比例值(@0.x)选取下,模型检测关节点的能力。
关节点定位精确度指标:
- OKS (Object Keypoint Similarity):评估预测关节点与gt间的相近程度,类似于IoU。
- 通过OKS取不同阈值,可计算AP和mAP
3 近年代表性paper
笔者感到近年提出的基于深度学习的姿态估计模型都有几个显著共同点:
- multi-stage:coarse --> refine,对关节点位置逐步修正,以达到更高的定位精度
- multi-resolution:多尺度信息融合
- heatmap:生成与原图尺寸一致的关节点概率分布图。
- encoder-decoder范式:从高精度到低精度的encoding过程可以看作一个传统的classification,直接使用常见backbone,这部分计算开销较大;上采样是轻量级的。
- 增大感受野:更大的感受野使模型能够利用更多全局信息(如可利用人体对称性、背景信息),对关节点进行更精准的位置预测。
DeepPose 2014 1
采用深度学习做单人姿态估计的第一个工作,AlexNet,CNN-based regression, multi-stage
局限:直接回归到一个位置坐标是非常困难的,这使得模型的学习过程很难,泛化能力差
ConvNet POSE 2015 2
让模型输出与输入图同尺度的heatmap,来表达各位置存在关节点的概率。解决了之前工作中直接回归坐标的困难。
整体架构:coarse heatmap -> crop -> fine heatmap
局限:由于对各关节点进行了crop(感受野太小),使得refine阶段无法利用人体姿态的结构特性。人体姿态有其结构特性,如物理连接性、关节活动限制、左右对称性等,我们可以检测可见的关节点,再用这些信息来指导被遮挡关节点的位置估计。
CPN 2018 3
Cascaded Pyramid Network
- GlobalNet: 估计简单关节点
- RefineNet: 估计困难关节点, online hard keypoint mining loss
SIMPLE BASELINES FOR HUMAN POSE ESTIMATION AND TRACKING 2018 4
ResNet + deconv 就可以取得很好的效果
DarkPose: DISTRIBUTION-AWARE COORDINATE REPRESENTATION FOR HUMAN POSE ESTIMATION 2019 5
对heatmap的重新解读,distribution modulation
4 总结
常用骨干网络ResNet,Top-down模式,COCO和MPII数据集,L2 loss损失函数,PCKh@0.5评价指标。
这篇文章总结了2D人体的总体姿态估计,现在还有一些新的研究针对部分躯干做姿态估计(如手势、头的姿态、上半身姿态等)。
对于单人姿态估计,现有方法已经能达到较好效果;但在多人姿态估计领域,还有许多挑战,如被身体/衣物/其他人遮挡的关节点、人与人之间的交互、人体结构限制、不可见关节点等。
A.ToshevandC.Szegedy,‘‘DeepPose:Humanposeestimationviadeep neural networks,’’ in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., Jun. 2014, pp. 1653–1660. ↩︎
J. Tompson, R. Goroshin, A. Jain, Y. LeCun, and C. Bregler, ‘‘Efficient object localization using convolutional networks,’’ in Proc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Jun. 2015, pp. 648–656. ↩︎
Y. Chen, Z. Wang, Y. Peng, Z. Zhang, G. Yu, and J. Sun, ‘‘Cascaded pyramid network for multi-person pose estimation,’’ in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit., Jun. 2018, pp. 7103–7112, doi: 10. 1109/CVPR.2018.00742. ↩︎
B. Xiao, H. Wu, and Y. Wei, ‘‘Simple baselines for human pose estima- tion and tracking,’’ in Computer Vision—ECCV, V. Ferrari, M. Hebert, C. Sminchisescu, and Y. Weiss, Eds. Cham, Switzerland: Springer, 2018, pp. 472–487. ↩︎
F.Zhang,X.Zhu,H.Dai,M.Ye,andC.Zhu,‘‘Distribution-awarecoor- dinate representation for human pose estimation,’’ in Proc. CVPR, 2019, pp. 7093–7102. ↩︎