目录
人体姿态估计(Human Pose Estimation)是计算机视觉领域中的一个重要研究方向,也是计算机理解人类动作、行为必不可少的一步,人体姿态估计是指通过计算机算法在图像或视频中定位人体关键点,目前被广泛应用于动作检测、虚拟现实、人机交互、视频监控等诸多领域。本次课程涵盖人体姿态估计的介绍与应用、2D 姿态估计、3D 姿态估计、DensePose、Body Mesh 以及 MMPose 等内容。
1,人体姿态估计的介绍与应用
从给定的图像中识别人脸、手部、身体等的关键点;
预测人体关键点,并在图像或视频的恢复3D运行状态;
2、2D姿态估计
2D人体姿态估计:在图像上定位人体关键点(通常为人力主要关节)的坐标;
关键点检测问题建模成回归问题,让模型直接回归关键坐标,
基于热力图:
不直接回归关键的坐标,而是预测关键位于每个文职的概率;
热力图可以基于原始关键点坐标生成,作为训练网络的监督信息;
网络预测的热力图也可以通过求极大值等方法得到关键点的坐标;
模型预测热力图比直接回归坐标相对容易模型精度相对更高,因此主流算法更多基于热力图但预测热力图的计算消耗大于直接回归;
2.1 自顶向下的方法
step1,使用目标检测算法检测出每个人体
step2,基于单人图像估计每个人的姿态
优缺点:整体精度受限于检测算法的精度;速度和计算量与人体个数正相关;
一些新工作(SPM)考虑将两个阶段聚合成一个阶段
DeepPose(2014)
优势:
回归模型理论上可以达到无限精度,热力图方法的精度受限于特征图的空间分辨率.回归模型不需要维持高分辨率特征图,计算层面更高效,相比之下,热力图方法需要计算和存储高分辨率的热力图和特征图,计算成本更高
劣势:
图像到关键点坐标的映射高度非线性,导致回归坐标比回归热力图更难,回归方法的精度也弱于热力图方法,因此 DeepPose 提出之后的很长一段时间内,2D 关键点预测算法主要基于热力图
RLE(Residual Log-likelihood Estimation)
基于热力图的自顶向下方法
Hourglass:
HRNET;
2.2 自底向上的方法
基本思路:基于图像同时预测关键位置和四肢走向,利用肢体走向辅助关键点的聚类;即,如果两个人关键点有某段肢体相连,则这两个关键点属于同一人;
OpenPose
2.3 单阶段方法
SPM
2.4 基于Transformer的方法
PRTR
TokenPose
2D姿态估计小结;
3,3D姿态估计
3.1 直接预测
通过给定的图像预测人力关键点在三维空间中的坐标,可以在三维空间中还原人体的姿态;
Coarse-to-Fine
Simple Baseline 3D
3.2 利用视频讯息
VideoPose 3D
3.3 利用多角度图像
VoxelPose
4,人体姿态估计的评估方法
5,DensePose
6,人体参数化模型
SMPL
SMPLify
HMR