Recent Advances in Monocular 2D and 3D Human Pose Estimation: A Deep Learning Perspective, 2021
本文对2014年以来的2D和3D人体姿态估计方法进行全面调研,精选出里程碑的方法,系统地总结了各种方法的差异和联系,并介绍了数据集和评价指标。28页综述,共计232篇参考文献。
作者单位: 京东AI (梅涛等人)
- 摘要:单目相机的人体姿态估计一直是计算机视觉领域的一个新兴研究课题,有许多应用。近年来,由于深度学习技术,大量的研究努力大大地提高了2D和3D领域的单目人类姿态估计。虽然有一些工作可以总结不同的方法,但研究人员要深入了解这些方法是如何工作的仍然具有挑战性。在本文中,我们提供了一个全面的和整体的2D到3D的视角来解决这个问题。我们将自2014年以来的主流和里程碑方法分类在统一的框架下。通过系统地总结这些方法之间的差异和联系,我们进一步分析了具有挑战性的案例的解决方案,如缺乏数据、2D和3D之间固有的模糊性,以及复杂的多人场景。我们还总结了姿态表示风格、基准、评估度量和流行方法的定量性能。最后,我们讨论了这些挑战,并对未来的研究前景和发展方向进行了深刻的思考。我们相信,这项调查将为读者提供对单眼人类姿态估计的深刻和深刻的理解。
本文贡献
在本文中,主要对近年来基于深度学习的MHPE方法进行了全面的回顾。作者认为,大多数有代表性的MHPE方法都具有内在的相似性和联系。此外,随着三维姿态和形状估计的快速发展,有必要对从二维到三维的人体姿态估计进行更深入的调查。因此,与论文 “Monocular human pose estimation: A survey of deep learning-based methods” 相比,我们的调查有以下差异和优势。
Y.-C. Chen, Y.-L. Tian, and M.-Y. He, “Monocular human pose estimation: A survey of deep learning-based methods,” Computer Vision and Image Understanding, vol. 192, p. 102897, 2020.
- 1) 在统一框架下总结了二维和三维姿态估计的主流网络。它们代表了具有代表性的范式。
- 2) 为人类三维表示、三维数据集、三维形状恢复方法以及三维姿态估计的挑战和进一步工作提供了深入的分析。
- 3) 此外,作者还发布了一个用于三维姿态数据处理的详细代码工具箱 toolbox,这对三维姿态研究将及时而有用。
toolbox 地址:https://github.com/Arthur151/SOTA-on-monocular-3D-pose-and-shape-estimation
整体介绍
MHPE应用场景
Monocular human pose estimation (MHPE), 单目人体姿态估计的目的是从单目图像或视频中预测人体的姿势信息,如身体关节的空间位置和/或体型参数。MHPE被广泛应用于许多计算机视觉任务,如人重新识别、人类解析、人类动作识别、人机交互等。由于MHPE不需要复杂的多摄像机或可穿戴标记点,它已经成为许多现实应用程序的重要组成部分,如虚拟现实、3D电影制作/编辑、自动驾驶、运动和活动分析以及人机交互。
MHPE分类
根据输出结果的空间维度,主流的MHPE任务可以分为2D姿态估计和3D姿态估计两类。
- 单目2D人体姿态估计,也被称为2D关键点检测,旨在从图像中定位人体解剖关键点(身体关节)的2D坐标。考虑到给定图像中的人数,2D人体姿态估计任务可以进一步分为单人姿态估计和多人姿态估计。此外,给定一个视频序列,2D姿态估计可以利用时间信息来提高视频系统中的关键点预测。
- 与仅预测身体关节的2D位置不同,3D姿态估计进一步预测了深度信息,以获得更准确的空间表示。在此过程中,3D姿态估计可以作为3D姿态估计的中间表示。近年来,对理解人类详细姿态信息的要求,使得3D姿态估计不仅能够预测3D位置,还能够预测详细的3D形状和身体纹理。
主要数据集
受数据和计算资源的限制,早期的研究主要集中在手工制作的特征的设计或用优化算法拟合可变形的人体模型上。最近,随着大规模的二维/三维姿态数据集的增加,深度学习技术显著提高了人体姿态估计的性能。
- COCO
T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Dollár, and C.-L. Zitnick, “Microsoft coco: Common objects in context,” in ECCV, 2014.
- MPII
M. Andriluka, L. Pishchulin, P. Gehler, and B. Schiele, “2d human pose estimation: New benchmark and state of the art analysis,” in CVPR, 2014.
- Human3.6M
C. Ionescu, D. Papava, V. Olaru, and C. Sminchisescu, “Human3.6M: Large scale datasets and predictive methods for 3D human sensing in natural environments,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 36, no. 7, pp. 1325–1339, 2014.
- 3DPW
T. von Marcard, R. Henschel, M.-J. Black, B. Rosenhahn, and G. PonsMoll, “Recovering accurate 3d human pose in the wild using imus and a moving camera,” in ECCV, 2018.
期刊会议
2014年至2020年,计算机视觉、多媒体、计算机图形等领域的主流会议(CVPR、ICCV、ECCV等)、期刊(TPAMI、TIP、TOG等)发表论文数量迅速增加。最近的工作主要集中在网络设计和优化、多任务交互、身体模型探索等。
上图描述:2014年至2020年在主流计算机视觉、多媒体和计算机图形会议(CVPR、ICCV、ECCV等)和期刊(TPAMI、TIP、TOG等)上发表的论文数量。
发展
如下图所示,展示了2014年到2021年的里程碑、想法或数据集突破,以及2D和3D姿态估计的最先进方法。
上图描述:从2014年到2021年,里程碑、想法或数据集的突破,以及2D(顶部)和3D(底部)姿态估计的最先进的方法。
2020年
- 2D姿态估计
- D. Sánchez, M. Oliu, M. Madadi, X. Baró, and S. Escalera, “Multi-task human analysis in still images: 2d/3d pose, depth map, and multi-part segmentation,” in FG, 2019.
- Y. Cai, Z. Wang, Z. Luo, B. Yin, A. Du, H. Wang, X. Zhang, X. Zhou, E. Zhou, and J. Sun, “Learning delicate local representations for multiperson pose estimation,” in ECCV, 2020.
- B.-W. Cheng, B. Xiao, J.-D. Wang, H.-H. Shi, T.-S. Huang, and L. Zhang, “Higherhrnet: Scale-aware representation learning for bottomup human pose estimation,” in CVPR, 2020.
- F. Zhang, X. Zhu, H. Dai, M. Ye, and C. Zhu, “Distribution-aware coordinate representation for human pose estimation,” in CVPR, 2020.
- 3D姿态估计
- Y. Sun, Q. Bao, W. Liu, Y.-L. Fu, and T. Mei, “Centerhmr: a bottom-up single-shot method for multi-person 3d mesh recovery from a single image,” 2020.
- A. Benzine, F. Chabot, B. Luvison, Q.-C. Pham, and C. Achard, “Pandanet: Anchor-based single-shot multi-person 3d pose estimation,” in CVPR, 2020.
- M. Kocabas, N. Athanasiou, and M.-J. Black, “Vibe: Video inference for human body pose and shape estimation,” in CVPR, 2020.
- W. Jiang, N. Kolotouros, G. Pavlakos, X.-W. Zhou, and K. Daniilidis, “Coherent reconstruction of multiple humans from a single image,” in CVPR, 2020.
针对MHPE的深度学习框架的概述
难点
人体对于高度自由度的姿态是非刚性和灵活的,因此,从单目摄像机预测人体姿态估计面临着许多挑战,如复杂或奇怪的姿势、人与人的交互或遮挡,以及拥挤的场景等。不同的相机视图和复杂的场景也会引入截断、图像模糊、低分辨率和小目标人等问题。(一个来自于人或人群;一个来自于相机试图或复杂场景)
现有解决方案
- 为了解决这些问题,现有的方法探索了深度学习的强大表示,以挖掘姿态估计的更多的线索。虽然它们在全局设计或详细优化上都有所不同,但里程碑方法的网络架构在内部也有相似之处。如下图所示,大多数流行的单人姿态估计网络可以被认为是由姿势编码器(也称为特征提取器)和姿势解码器组成的。前者旨在通过高到低分辨率的过程来提取高级特征。后者以基于检测的方式或基于回归的方式估计目标输出、2D/3D关键点位置或3D网格。对于姿态解码器,基于检测的方法可以生成特征图或热图,而基于回归的方法可以直接输出目标参数。