一,人体姿态识别数据集
1,2D数据集:
LSP
地址:http://sam.johnson.io/research/lsp.html
样本数:2K
关节点个数:14
全身,单人
FLIC
地址:https://bensapp.github.io/flic-dataset.html
样本数:2W
关节点个数:9
全身,单人
MPII
地址:http://human-pose.mpi-inf.mpg.de/
样本数:25K
关节点个数:16
全身,单人/多人,40K people,410 human activities
MSCOCO
地址:http://cocodataset.org/#download
样本数:>= 30W
关节点个数:18
全身,多人,keypoints on 10W people
AI Challenge
地址:https://challenger.ai/competition/keypoint/subject
样本数:21W Training, 3W Validation, 3W Testing
关节点个数:14
全身,多人,38W people
2,3D数据集:
在数据处理阶段,3D比2D复杂很多。2D人体姿态识别在dataset和model方面都比3D成熟,2Dmodel也有很多户外,自然界的dataset,但是3D的dataset几乎都是indoor的。因为3D标注、识别的复杂,所以需要大量的传感器,摄像头去采集数据。收集了几个最近看到的数据集分享给大家。
- Human3.6M数据集 Human3.6M数据集有360万个3D人体姿势和相应的图像,共有11个实验者(6男5女,论文一般选取1,5,6,7,8作为train,9,11作为test),共有17个动作场景,诸如讨论、吃饭、运动、问候等动作。该数据由4个数字摄像机,1个时间传感器,10个运动摄像机捕获。
- CMU Panoptic dataset 该数据集是CMU大学制作,由480个VGA摄像头,30+HD摄像头和10个Kinnect传感器采集。
- 3、MPI-INF-3DHP 该数据集由Max Planck Institute for Informatics制作,详情可见Monocular 3D Human Pose Estimation In The Wild Using Improved CNN Supervision论文。
二,人体姿态估计重要论文
相关论文分享:链接:https://pan.baidu.com/s/1wVQJfPgyXVQAmdSIKQNPAA
提取码:077o
1,单人姿态估计的重要论文
2014----Articulated Pose Estimation by a Graphical Model with ImageDependent Pairwise Relations
2014----DeepPose_Human Pose Estimation via Deep Neural Networks
2014----Joint Training of a Convolutional Network and a Graphical Model forHuman Pose Estimation
2014----Learning Human Pose Estimation Features with Convolutional Networks
2014----MoDeep_ A Deep Learning Framework Using Motion Features for HumanPose Estimation
2015----Efficient Object Localization Using Convolutional Networks
2015----Human Pose Estimation with Iterative Error
2015----Pose-based CNN Features for Action Recognition
2016----Advancing Hand Gesture Recognition with High Resolution ElectricalImpedance Tomography
2016----Chained Predictions Using Convolutional Neural Networks
2016----CPM----Convolutional Pose Machines
2016----CVPR-2016----End-to-End Learning of Deformable Mixture of Parts andDeep Convolutional Neural Networks for Human Pose Estimation
2016----Deep Learning of Local RGB-D Patches for 3D Object Detection and 6DPose Estimation
2016----PAFs----Realtime Multi-Person 2D Pose Estimation using PartAffinity Fields (openpose)
2016----Stacked hourglass----StackedHourglass Networks for Human Pose Estimation
2016----Structured Feature Learning for Pose Estimation
2017----Adversarial PoseNet_ A Structure-aware Convolutional Network forHuman pose estimation (alphapose)
2017----CVPR2017 oral----Realtime Multi-Person 2D Pose Estimation usingPart Affinity Fields
2017----Learning Feature Pyramids for Human Pose Estimation
2017----Multi-Context_Attention_for_Human_Pose_Estimation
2017----Self Adversarial Training for Human Pose Estimation
2,多人姿态估计的重要论文
2016----AssociativeEmbedding_End-to-End Learning for Joint Detection and Grouping
2016----DeepCut----Joint Subset Partition and Labeling for Multi PersonPose Estimation
2016----DeepCut----Joint Subset Partition and Labeling for Multi PersonPose Estimation_poster
2016----DeeperCut----DeeperCut A Deeper, Stronger, and Faster Multi-PersonPose Estimation Model
2017----G-RMI----Towards Accurate Multi-person Pose Estimation in the Wild
2017----RMPE_ Regional Multi-PersonPose Estimation
2018----Cascaded Pyramid Network for Multi-Person Pose Estimation
“级联金字塔网络用于多人姿态估计”
2018----DensePose: Dense Human Pose Estimation in the Wild
”密集人体:野外人体姿势估计“(精读,DensePose有待于进一步研究)
2018---3D Human Pose Estimation in the Wild by Adversarial Learning
“对抗性学习在野外的人体姿态估计”
三,单人姿态估计
2015 年之前的方法都是回归出精确的关节点坐标( x,y ),采用这种方法不好的原因是人体运动灵活,模型可扩展性较差。本文主要是2015年之后人体姿态识别的发展综述。(1)遮挡问题,这个问题恐怕是最难的,也是必须要解决的(2)速度过慢。(3)仅仅有二位的姿态是不够的,目前也有这一类的研究,关于直接从2d到3d的姿态进行直接估计。这一点是未来发展的趋势。
单人姿态估计性能评价指标:MPII单人数据集,LSP数据集和FLIC数据集。通过对比这三个数据集的PCK值来评价模型好坏。评价指标为PCK(Percentage of Correct Keypoints)即关键点正确估计的比例,计算检测的关键点与其对应的groundtruth 间的归一化距离小于设定阈值的比例,FLIC中是以躯干直径作为归一化参考,MPII中是以头部长度作为归一化参考,即PCKh。目前MPII单人数据集的排名如下:
发展历程:
《Flowing ConvNets for Human Pose Estimation in Videos》ICCV 2015
2015 年 flow convnet 将姿态估计看作是检测问题,输出是 heatmap。用相对于AlexNet更深的CNN网络进行人体姿态估计,提高关节点定位的鲁棒性,利用temporal提高精度。其创新点在于从卷积神经网络的 3 和 7 层提取出来,再经过卷积操作,称之为空间融合模型,用来提取关节点之间的内在联系;同时使用光流信息,用来对准相邻帧的 heatmap 预测。最后使用参数池化层,将对齐的heatmap 合并成一个 scoremap(置信图)。
网络pipeline:对于当前帧t,输入它的相邻的前后n帧。利用全卷积神经网络(Spatial Net + Spatial Fusion Layers)对每一帧输出一个预测的heatmap。再利用光流信息将这些heatmap扭曲到当前帧t。之后将warped的heatmap合并到另一个卷积层中,该层学习如何权衡来自附近框架的扭曲的heatmap。最后使用集合热图的最大值作为人体的身体关节。
评测数据集:FLIC数据集,对于wrist(手腕)和elbow(肘部)的平均PCK可以达到92%,可以做到实时性,速度为5fps。但是该方法对于pose的估计范围有限,只是半身的关节点,并不是全身的身体骨骼点。
《Convolutio