人体姿态识别研究综述（详细归纳！）

最新推荐文章于 2024-06-27 23:34:37 发布

fengfeng，Z

最新推荐文章于 2024-06-27 23:34:37 发布

阅读量7.5w

点赞数 90

分类专栏：计算机视觉

本文链接：https://blog.csdn.net/qq_38522972/article/details/82953477

版权

本文全面概述了人体姿态识别的研究，涵盖了2D和3D数据集，如LSP、MPII和Human3.6M，并列举了单人和多人姿态估计的重要论文，包括CPM、Stacked Hourglass Networks和DeepCut等方法。文章讨论了不同方法的优缺点，如数据集的挑战、模型的复杂性和实时性，并提供了性能评价指标。最后，强调了多人姿态识别在未来的重要性及其发展趋势。

摘要由CSDN通过智能技术生成

一，人体姿态识别数据集

1，2D数据集：

LSP

地址：http://sam.johnson.io/research/lsp.html

样本数：2K

关节点个数：14

全身，单人

FLIC

地址：https://bensapp.github.io/flic-dataset.html

样本数：2W

关节点个数：9

全身，单人

MPII

地址：http://human-pose.mpi-inf.mpg.de/

样本数：25K

关节点个数：16

全身，单人/多人，40K people，410 human activities

MSCOCO

地址：http://cocodataset.org/#download

样本数：>= 30W

关节点个数：18

全身，多人，keypoints on 10W people

AI Challenge

地址：https://challenger.ai/competition/keypoint/subject

样本数：21W Training, 3W Validation, 3W Testing

关节点个数：14

全身，多人，38W people

2，3D数据集:

在数据处理阶段，3D比2D复杂很多。2D人体姿态识别在dataset和model方面都比3D成熟，2Dmodel也有很多户外，自然界的dataset，但是3D的dataset几乎都是indoor的。因为3D标注、识别的复杂，所以需要大量的传感器，摄像头去采集数据。收集了几个最近看到的数据集分享给大家。

Human3.6M数据集 Human3.6M数据集有360万个3D人体姿势和相应的图像，共有11个实验者（6男5女，论文一般选取1，5，6，7，8作为train，9，11作为test），共有17个动作场景，诸如讨论、吃饭、运动、问候等动作。该数据由4个数字摄像机，1个时间传感器，10个运动摄像机捕获。
CMU Panoptic dataset 该数据集是CMU大学制作，由480个VGA摄像头，30+HD摄像头和10个Kinnect传感器采集。
3、MPI-INF-3DHP 该数据集由Max Planck Institute for Informatics制作，详情可见Monocular 3D Human Pose Estimation In The Wild Using Improved CNN Supervision论文。

二，人体姿态估计重要论文

相关论文分享：链接：https://pan.baidu.com/s/1wVQJfPgyXVQAmdSIKQNPAA
提取码：077o

1，单人姿态估计的重要论文

2014----Articulated Pose Estimation by a Graphical Model with ImageDependent Pairwise Relations

2014----DeepPose_Human Pose Estimation via Deep Neural Networks

2014----Joint Training of a Convolutional Network and a Graphical Model forHuman Pose Estimation

2014----Learning Human Pose Estimation Features with Convolutional Networks

2014----MoDeep_ A Deep Learning Framework Using Motion Features for HumanPose Estimation

2015----Efficient Object Localization Using Convolutional Networks

2015----Human Pose Estimation with Iterative Error

2015----Pose-based CNN Features for Action Recognition

2016----Advancing Hand Gesture Recognition with High Resolution ElectricalImpedance Tomography

2016----Chained Predictions Using Convolutional Neural Networks

2016----CPM----Convolutional Pose Machines

2016----CVPR-2016----End-to-End Learning of Deformable Mixture of Parts andDeep Convolutional Neural Networks for Human Pose Estimation

2016----Deep Learning of Local RGB-D Patches for 3D Object Detection and 6DPose Estimation

2016----PAFs----Realtime Multi-Person 2D Pose Estimation using PartAffinity Fields （openpose）

2016----Stacked hourglass----StackedHourglass Networks for Human Pose Estimation

2016----Structured Feature Learning for Pose Estimation

2017----Adversarial PoseNet_ A Structure-aware Convolutional Network forHuman pose estimation (alphapose)

2017----CVPR2017 oral----Realtime Multi-Person 2D Pose Estimation usingPart Affinity Fields

2017----Learning Feature Pyramids for Human Pose Estimation

2017----Multi-Context_Attention_for_Human_Pose_Estimation

2017----Self Adversarial Training for Human Pose Estimation

2，多人姿态估计的重要论文

2016----AssociativeEmbedding_End-to-End Learning for Joint Detection and Grouping

2016----DeepCut----Joint Subset Partition and Labeling for Multi PersonPose Estimation

2016----DeepCut----Joint Subset Partition and Labeling for Multi PersonPose Estimation_poster

2016----DeeperCut----DeeperCut A Deeper, Stronger, and Faster Multi-PersonPose Estimation Model

2017----G-RMI----Towards Accurate Multi-person Pose Estimation in the Wild

2017----RMPE_ Regional Multi-PersonPose Estimation

2018----Cascaded Pyramid Network for Multi-Person Pose Estimation

“级联金字塔网络用于多人姿态估计”

2018----DensePose: Dense Human Pose Estimation in the Wild

”密集人体：野外人体姿势估计“（精读，DensePose有待于进一步研究）

2018---3D Human Pose Estimation in the Wild by Adversarial Learning

“对抗性学习在野外的人体姿态估计”

三，单人姿态估计

2015 年之前的方法都是回归出精确的关节点坐标( x,y )，采用这种方法不好的原因是人体运动灵活，模型可扩展性较差。本文主要是2015年之后人体姿态识别的发展综述。(1)遮挡问题,这个问题恐怕是最难的,也是必须要解决的(2)速度过慢。（3）仅仅有二位的姿态是不够的，目前也有这一类的研究，关于直接从2d到3d的姿态进行直接估计。这一点是未来发展的趋势。

单人姿态估计性能评价指标：MPII单人数据集，LSP数据集和FLIC数据集。通过对比这三个数据集的PCK值来评价模型好坏。评价指标为PCK（Percentage of Correct Keypoints）即关键点正确估计的比例，计算检测的关键点与其对应的groundtruth 间的归一化距离小于设定阈值的比例，FLIC中是以躯干直径作为归一化参考，MPII中是以头部长度作为归一化参考，即PCKh。目前MPII单人数据集的排名如下：

发展历程：

《Flowing ConvNets for Human Pose Estimation in Videos》ICCV 2015

2015 年 flow convnet 将姿态估计看作是检测问题,输出是 heatmap。用相对于AlexNet更深的CNN网络进行人体姿态估计，提高关节点定位的鲁棒性，利用temporal提高精度。其创新点在于从卷积神经网络的 3 和 7 层提取出来,再经过卷积操作,称之为空间融合模型,用来提取关节点之间的内在联系;同时使用光流信息,用来对准相邻帧的 heatmap 预测。最后使用参数池化层,将对齐的heatmap 合并成一个 scoremap（置信图）。

网络pipeline：对于当前帧t，输入它的相邻的前后n帧。利用全卷积神经网络（Spatial Net + Spatial Fusion Layers）对每一帧输出一个预测的heatmap。再利用光流信息将这些heatmap扭曲到当前帧t。之后将warped的heatmap合并到另一个卷积层中，该层学习如何权衡来自附近框架的扭曲的heatmap。最后使用集合热图的最大值作为人体的身体关节。

评测数据集：FLIC数据集，对于wrist（手腕）和elbow（肘部）的平均PCK可以达到92%，可以做到实时性，速度为5fps。但是该方法对于pose的估计范围有限，只是半身的关节点，并不是全身的身体骨骼点。

《Convolutio

最低0.47元/天解锁文章

fengfeng，Z

关注

90
点赞
踩
683

收藏

觉得还不错? 一键收藏
22
评论
人体姿态识别研究综述（详细归纳！）

一，人体姿态识别数据集1，2D数据集：LSP地址：http://sam.johnson.io/research/lsp.html样本数：2K关节点个数：14全身，单人FLIC地址：https://bensapp.github.io/flic-dataset.html样本数：2W关节点个数：9全身，单人MPII地址：http://human-pos...
复制链接

扫一扫

专栏目录