1.人体姿态估计概述
通过图像、视频中的人像信息,将人的姿态描述出来,重建一个人体的姿态。
主流的方法有2D人体姿态估计和3D人体姿态估计,都是基于深度学习的方法。
2.2D人体姿态识别
- 单人姿态估计
- 多人姿态估计
2.1.单人姿态估计
- 基于坐标回归
- 基于热图检测
基于回归直接去找关键点,关键点可能是单个像素,然后与标定的关键点做损失优化。当遇到图片分辨率高其误差也会加大,计算效果差。输入图片,输出8个点。
基于热力图,放大关键点,可能是一堆像素点,每个像素点的置信度不一样,蓝圈里面的更精确,红圈的就没那么精确。输入图片,输出热力图。
2.2.多人姿态估计
- 自顶而下
- 自底而上
自顶而下:先检测人,把人圈出来,再在圈里面找关键点
自底向上:先检测关键点,再组装成一个个的人。
3.3D人体姿态估计
三维人体姿态估计可分为单目、多目、时间序列。这里只讲多目:
- 匹配+三角化重建(先2D后3D)
- 3D空间体素化
这里首先在每张图片(视角)下重建出2D姿态,再进行对角化,匹配每个关键点,建立3D模型。其缺点在于过度依赖2D的检测结果,匹配关键点与三角化中没有监督。
通过提取各个视角中的热力图直接投影在三维空间,再去定位人物,寻找关键点。