基于深度学习的单目2D/3D姿态估计综述（2021）_深度学习空间目标姿态估计综述-CSDN博客

本文链接：https://blog.csdn.net/m0_50811752/article/details/116244103

Recent Advances in Monocular 2D and 3D Human Pose Estimation: A Deep Learning Perspective, 2021

本文贡献
整体介绍
针对MHPE的深度学习框架的概述
- 难点
- 现有解决方案
人体表示
单目2D姿态估计（待补充）
单目3D姿态估计
评估指标
数据集
研究结论及未来的发展方向

本文对2014年以来的2D和3D人体姿态估计方法进行全面调研，精选出里程碑的方法，系统地总结了各种方法的差异和联系，并介绍了数据集和评价指标。28页综述，共计232篇参考文献。
作者单位： 京东AI （梅涛等人）

摘要：单目相机的人体姿态估计一直是计算机视觉领域的一个新兴研究课题，有许多应用。近年来，由于深度学习技术，大量的研究努力大大地提高了2D和3D领域的单目人类姿态估计。虽然有一些工作可以总结不同的方法，但研究人员要深入了解这些方法是如何工作的仍然具有挑战性。在本文中，我们提供了一个全面的和整体的2D到3D的视角来解决这个问题。我们将自2014年以来的主流和里程碑方法分类在统一的框架下。通过系统地总结这些方法之间的差异和联系，我们进一步分析了具有挑战性的案例的解决方案，如缺乏数据、2D和3D之间固有的模糊性，以及复杂的多人场景。我们还总结了姿态表示风格、基准、评估度量和流行方法的定量性能。最后，我们讨论了这些挑战，并对未来的研究前景和发展方向进行了深刻的思考。我们相信，这项调查将为读者提供对单眼人类姿态估计的深刻和深刻的理解。

本文贡献

在本文中，主要对近年来基于深度学习的MHPE方法进行了全面的回顾。作者认为，大多数有代表性的MHPE方法都具有内在的相似性和联系。此外，随着三维姿态和形状估计的快速发展，有必要对从二维到三维的人体姿态估计进行更深入的调查。因此，与论文 “Monocular human pose estimation: A survey of deep learning-based methods” 相比，我们的调查有以下差异和优势。

Y.-C. Chen, Y.-L. Tian, and M.-Y. He, “Monocular human pose estimation: A survey of deep learning-based methods,” Computer Vision and Image Understanding, vol. 192, p. 102897, 2020.

1) 在统一框架下总结了二维和三维姿态估计的主流网络。它们代表了具有代表性的范式。
2) 为人类三维表示、三维数据集、三维形状恢复方法以及三维姿态估计的挑战和进一步工作提供了深入的分析。
3) 此外，作者还发布了一个用于三维姿态数据处理的详细代码工具箱 toolbox，这对三维姿态研究将及时而有用。
toolbox 地址：https://github.com/Arthur151/SOTA-on-monocular-3D-pose-and-shape-estimation

整体介绍

MHPE应用场景

Monocular human pose estimation (MHPE), 单目人体姿态估计的目的是从单目图像或视频中预测人体的姿势信息，如身体关节的空间位置和/或体型参数。MHPE被广泛应用于许多计算机视觉任务，如人重新识别、人类解析、人类动作识别、人机交互等。由于MHPE不需要复杂的多摄像机或可穿戴标记点，它已经成为许多现实应用程序的重要组成部分，如虚拟现实、3D电影制作/编辑、自动驾驶、运动和活动分析以及人机交互。

MHPE分类

根据输出结果的空间维度，主流的MHPE任务可以分为2D姿态估计和3D姿态估计两类。

单目2D人体姿态估计，也被称为2D关键点检测，旨在从图像中定位人体解剖关键点（身体关节）的2D坐标。考虑到给定图像中的人数，2D人体姿态估计任务可以进一步分为单人姿态估计和多人姿态估计。此外，给定一个视频序列，2D姿态估计可以利用时间信息来提高视频系统中的关键点预测。
与仅预测身体关节的2D位置不同，3D姿态估计进一步预测了深度信息，以获得更准确的空间表示。在此过程中，3D姿态估计可以作为3D姿态估计的中间表示。近年来，对理解人类详细姿态信息的要求，使得3D姿态估计不仅能够预测3D位置，还能够预测详细的3D形状和身体纹理。

主要数据集

受数据和计算资源的限制，早期的研究主要集中在手工制作的特征的设计或用优化算法拟合可变形的人体模型上。最近，随着大规模的二维/三维姿态数据集的增加，深度学习技术显著提高了人体姿态估计的性能。

COCO

T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Dollár, and C.-L. Zitnick, “Microsoft coco: Common objects in context,” in ECCV, 2014.

MPII

M. Andriluka, L. Pishchulin, P. Gehler, and B. Schiele, “2d human pose estimation: New benchmark and state of the art analysis,” in CVPR, 2014.

Human3.6M

C. Ionescu, D. Papava, V. Olaru, and C. Sminchisescu, “Human3.6M: Large scale datasets and predictive methods for 3D human sensing in natural environments,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 36, no. 7, pp. 1325–1339, 2014.

3DPW

T. von Marcard, R. Henschel, M.-J. Black, B. Rosenhahn, and G. PonsMoll, “Recovering accurate 3d human pose in the wild using imus and a moving camera,” in ECCV, 2018.

期刊会议

2014年至2020年，计算机视觉、多媒体、计算机图形等领域的主流会议（CVPR、ICCV、ECCV等）、期刊（TPAMI、TIP、TOG等）发表论文数量迅速增加。最近的工作主要集中在网络设计和优化、多任务交互、身体模型探索等。
在这里插入图片描述
上图描述：2014年至2020年在主流计算机视觉、多媒体和计算机图形会议（CVPR、ICCV、ECCV等）和期刊（TPAMI、TIP、TOG等）上发表的论文数量。

发展

如下图所示，展示了2014年到2021年的里程碑、想法或数据集突破，以及2D和3D姿态估计的最先进方法。
在这里插入图片描述
上图描述：从2014年到2021年，里程碑、想法或数据集的突破，以及2D（顶部）和3D（底部）姿态估计的最先进的方法。

2020年

2D姿态估计
- D. Sánchez, M. Oliu, M. Madadi, X. Baró, and S. Escalera, “Multi-task human analysis in still images: 2d/3d pose, depth map, and multi-part segmentation,” in FG, 2019.
- Y. Cai, Z. Wang, Z. Luo, B. Yin, A. Du, H. Wang, X. Zhang, X. Zhou, E. Zhou, and J. Sun, “Learning delicate local representations for multiperson pose estimation,” in ECCV, 2020.
- B.-W. Cheng, B. Xiao, J.-D. Wang, H.-H. Shi, T.-S. Huang, and L. Zhang, “Higherhrnet: Scale-aware representation learning for bottomup human pose estimation,” in CVPR, 2020.
- F. Zhang, X. Zhu, H. Dai, M. Ye, and C. Zhu, “Distribution-aware coordinate representation for human pose estimation,” in CVPR, 2020.
3D姿态估计
- Y. Sun, Q. Bao, W. Liu, Y.-L. Fu, and T. Mei, “Centerhmr: a bottom-up single-shot method for multi-person 3d mesh recovery from a single image,” 2020.
- A. Benzine, F. Chabot, B. Luvison, Q.-C. Pham, and C. Achard, “Pandanet: Anchor-based single-shot multi-person 3d pose estimation,” in CVPR, 2020.
- M. Kocabas, N. Athanasiou, and M.-J. Black, “Vibe: Video inference for human body pose and shape estimation,” in CVPR, 2020.
- W. Jiang, N. Kolotouros, G. Pavlakos, X.-W. Zhou, and K. Daniilidis, “Coherent reconstruction of multiple humans from a single image,” in CVPR, 2020.

针对MHPE的深度学习框架的概述

难点

人体对于高度自由度的姿态是非刚性和灵活的，因此，从单目摄像机预测人体姿态估计面临着许多挑战，如复杂或奇怪的姿势、人与人的交互或遮挡，以及拥挤的场景等。不同的相机视图和复杂的场景也会引入截断、图像模糊、低分辨率和小目标人等问题。（一个来自于人或人群；一个来自于相机试图或复杂场景）

现有解决方案

为了解决这些问题，现有的方法探索了深度学习的强大表示，以挖掘姿态估计的更多的线索。虽然它们在全局设计或详细优化上都有所不同，但里程碑方法的网络架构在内部也有相似之处。如下图所示，大多数流行的单人姿态估计网络可以被认为是由姿势编码器（也称为特征提取器）和姿势解码器组成的。前者旨在通过高到低分辨率的过程来提取高级特征。后者以基于检测的方式或基于回归的方式估计目标输出、2D/3D关键点位置或3D网格。对于姿态解码器，基于检测的方法可以生成特征图或热图，而基于回归的方法可以直接输出目标参数。

上图描述：单人姿态估计的典型框架
对于多人场景，为了估计每个人的2D或3D姿势，现有的作品利用自上而下的范式或自下而上的范式。自上而下的框架首先检测人员区域，然后从这些区域中提取边界框级特征。这些特征被用于估计每个人的姿势结果。相反，自下而上的范式首先检测所有的目标输出，然后通过分组或采样将它们分配给不同的人。如下图所示，具有代表性的两范式的多人的方法依赖于基于姿态编码器和解码器的架构，网络输入是被检测到的边界框或整个图像。
因此，如何设计一种有效的姿态编码器和姿态解码器结构是姿态估计中普遍流行的课题。与分类、检测和语义分割不同，人体姿态估计需要处理身体部位之间的细微差异，特别是在不可避免的截断、拥挤和遮挡的情况下。为了实现这一点，可以考虑车身结构模型、多尺度特征融合、多级管道、从粗到细的细化、多任务学习等。
此外，关于从单目图像估计3D姿态，另一个挑战是野外3D训练数据不足。由于设备的限制，常见的3D姿态数据集经常在受约束的实验环境中被捕获。例如，最广泛使用的3D姿势数据集，人类3.6M只包含15个由7人进行的室内活动。因此，人类的姿势、形状和场景的多样性是极其有限的。仅在这些数据集上训练的模型很容易在野外图像上失败。为了解决这个问题，许多方法将2D姿态作为中间表示或额外的监督，并从野外2D姿态信息中学习。然而，在这个过程中存在着固有的歧义，即，单个2D姿势可能对应于多个3D姿势，反之亦然。为了解决固有的歧义，我们必须考虑如何在人体、运动连续性和多视图一致性之前充分利用共同的结构。

人体表示

人体的各种表现已经被发展来描述不同方面复杂的人体姿势。他们已经表现出了不同的特征来处理姿态估计的各种挑战。现有的表示可以分为两类：1）基于关键点的表示；和 2）基于模型的表示。

基于关键点的表示

身体关键点的2D或3D坐标是身体骨架的简单而直观的表示，即基于关键点的表示（Keypoint-based Representation），它有几种表示形式。

二维/三维的关键点坐标
二维/三维的关键点坐标（2D/3D keypoint coordinates）。主体关键点可以用二维/三维坐标来明确地描述。如图(a)所示，关键点按照固有的身体结构进行连接。身体部分的方向可以从这些连接的四肢中得到。
二维/三维热图
二维/三维热图（2D/3D heatmaps）。为了使坐标更适合由卷积神经网络回归，许多方法以热图的方式表示关键点坐标。如图(b)所示，每个关键点的高斯热图在对应的二维/三维坐标上具有高响应值，在其他位置具有低响应值。
方向图
方向图（Orientation maps）。有些方法将身体关键点的定位图作为热图的辅助表示。OpenPose开发了著名的部分亲和力场(PAFs)来表示四肢之间的二维方向。如图©所示。PAF是一个二维向量场，它关联了一个肢体的两个关键点。场中的每个像素都包含一个二维向量，它指向四肢的一部分到另一个向量。Orinet进一步将其发展为三维方向图，它可以明确地建模肢体的方向。
层次的骨载体
层次的骨载体（Hierarchical bone vectors）。提出了CHP的二维层次骨表示，它是关节和骨向量的组合。Xu等人和Li等人进一步将其开发为3D。如图(d)所示。三维人体骨骼由一组骨骼载体表示。每个骨骼矢量都从父键指向子键，遵循一个运动学树。每个父关键点都与一个局部球坐标系关联。骨矢量可以用这个系统中的一个球面坐标来表示。

基于模型的表示

基于模型的表示（Model-based Representation）是根据人体固有的结构特征而开发的。它提供了比基于关键点的描述更丰富的身体信息。基于模型的表示可以分为基于部分的体积模型和统计的三维人体模型。

基于部分的体积模型
基于部分的体积模型（Part-based volumetric model）被开发来解决现实中的挑战。例如，在Y. Cheng等人的研究中，开发了圆柱体模型来生成被遮挡零件的标签。如图(e)的蓝色模型所示，每个肢体都被表示为一个圆柱体。每个圆柱体通过将顶部和底部表面中心与肢体的三维关键点来定位。类似地，如图(e)的粉红色模型所示。提出了以椭球体部件（M. Wang等人研究）为基本单位的椭圆体模型。它比一个圆柱体更灵活。

Y. Cheng, B. Yang, B. Wang, W.-D. Yan, and R.-T. Tan, “Occlusion-aware networks for 3d human pose estimation in video,” in ICCV, 2019.
M. Wang, F. Qiu, W.-T. Liu, C. Qian, X. Zhou, and L. Ma, “Ellipbody: A light-weight and part-based representation for human pose and shape recovery,” arXiv preprint arXiv:2003.10873, 2020.

在这里插入图片描述

上图描述：(e)圆柱体模型（蓝色）和椭圆体（粉红色） (f) 骨架驱动的皮肤多人线性模型(SMPL)

详细统计的三维人体模型
与基于部分的体积模型相比，详细统计的三维人体模型（Detailed statistical 3D human body model）描述了更详细的信息，包括身体的姿势和形状。本文介绍了最广泛使用的皮肤多人线性模型(SMPL)，这是一个骨架驱动的人体模型。

M. Loper, N. Mahmood, J. Romero, G. Pons-Moll, and M.-J. Black, “SMPL: A skinned multi-person linear model,” ACM Transactions on Graphics, 2015.

3D到2D投影

3D到2D投影（3D-to-2D Projection）将3D空间连接到2D图像平面。介绍此工具必须更好地了解使用它的方法。3D到2D投影使用相机模型生成3D-2D姿势对，使用2D姿态注释监督3D姿势，或通过3D姿态投影细化2D姿势。透视相机模型和弱透视相机模型是两种广泛使用的相机模型。

透视照相机模型
Perspective camera model。透视照相机模型通常用于将三维空间中的点投影到图像平面上的二维像素坐标中。通常，它由两个步骤组成。首先，需要用外部矩阵 [R|t] 将三维点转换为相机坐标，它描述相机的旋转和平移。其次，我们需要内在矩阵K来进行自适应调整来精确投影。因此，三维关键点J3d的二维投影J2d可以被描述为J2d=K[R|t]J3d。
弱透视图的摄像机模型
Weak-perspective camera model。在大多数情况下，输入的二维图像未经校准，很难检索到完整的透视相机参数。因此，弱透视相机模型更广泛地应用于现有的计算三维关键点J3d的二维投影Jwp2d的方法。

单目2D姿态估计（待补充）

（这个部分，后面再补充，先讲3D姿态估计，目前我自己也在做3D的姿态估计。）

单目3D姿态估计

分类

根据输出表示法，单目3D姿态估计可以分为基于骨架的3D姿态估计和基于网格的3D姿态估计。前者预测身体关节的3D位置，而后者根据人体网格拓扑或统计的3D身体模型输出3D身体网格。与2D姿态估计相比，从单目2D图像中估计3D姿态更具挑战性。除了2D部分的所有挑战外，单目3D姿态估计还缺乏野外3D数据和固有的2D到3D的模糊性。

难点

第一个大的挑战是缺乏足够的具有准确3D注释的野外数据。大多数存在的3D姿态数据集的多样性是不够的。精确地捕捉2D图像的3D姿态注释是很困难和昂贵的，尤其是在户外条件下。现有的3D姿态数据集往往偏向于特定的环境中受限的行为 (例如室内)。例如著名的3D姿态数据集Human3.6M，只有11个参与者执行15个活动。相比之下，2D姿态数据很容易被收集，它包含了更丰富的姿态和环境。因此，经常使用2D姿态数据集来改进3D算法的泛化。例如，大多