人体姿态估计与MMPose
什么是人体姿态估计?
输入:图像I
输出:所有关键点的像素坐标,其中J为关键点的总数。
下游任务:行为识别;CG动画;人机交互;动物行为分析;
2D姿态估计
目标:在图像上定位人体关键点的坐标
相关技术总结:
1.基于回归
关键点检测问题可建模为一个回归问题:,可以用深度学习进行回归。
相关方法:
DeepPose(2014)
Residual Log-likelihood Estimation(RLE)(2021)
2.基于热力图
不直接回归关键点的坐标,而是预测关键点位于每个位置的概率,即,H称为热力图。
热力图可以基于原始关键点坐标生成,作为训练网络的监督信息。
网络预测的热力图可以通过求极大值等方法得到关键点的坐标。
相关方法
Hourglass(2016)
多人姿态估计
1.自顶向下的方法
2.自底向上的方法
3.单阶段方法(SPM(2019))
4.基于Transformer的方法(PRTR( 2021)、TokenPose( 2021))
3D姿态估计
预测人体关键点在三维空间中的坐标,在三维空间还原人体的姿态。
方法:Coarse-to-Fine Volumetric Prediction(2017)、Simple Baseline 3D(2017)
评估指标
PCP、PDJ、PCK、OKS based mAP