【OpenMMLab】人体姿态估计、关键点检测与MMPose

最新推荐文章于 2024-04-21 18:03:09 发布

Donny0v0

最新推荐文章于 2024-04-21 18:03:09 发布

阅读量963

点赞数 2

分类专栏： OpenMMLab 文章标签：人工智能计算机视觉深度学习

本文链接：https://blog.csdn.net/DplusC/article/details/131011303

版权

OpenMMLab 专栏收录该内容

10 篇文章

订阅专栏

系列文章目录

第一课：【OpenMMLab】OpenMMLab概述

文章目录

系列文章目录
前言
一、人体姿态估计或关键点检测任务
- 任务介绍
- 下游任务
二、2D 姿态估计
三、3D 姿态估计
四、评估指标

前言

【OpenMMLab】OpenMMLab概述为大家介绍了通用视觉框架 OpenMMLab 中具有代表性的算法库，如MMPretrain、MMDetecton、MMDetection3D、MMRotate、MMSegmentation、MMPose、MMAction2、MMOCR、MMagic、MMYOLO等。
本篇博客将深入了解人体姿态估计（或关键点检测）算法，以及OpenMMLab 开源的用于关键点检测的算法库 MMPose 。

一、人体姿态估计或关键点检测任务

任务介绍

给定一张图片，任务要求检测图像中人脸、手部、身体等部位的关键点。
输入：图像 I
输出：所有关键点的像素坐标 $(x_1, y_1), (x_2, y_2)\dots(x_J, y_J)$ ，这里的J为关键点的总数，取决于具体的关键点检测任务和模型。
常见的关键点
关键点检测可以预测人体关键点在三维空间中的坐标 $(x, y, z)$ ，进而在三维空间中还原人的姿态。
三维人体关键点

下游任务

PoseC3D: 基于人体关键点识别行为动作。这项工作已被开源在 MMAction2 中。
在这里插入图片描述
CG、动画: 基于3D人体关键点检测，根据人体姿态，表情姿态的关键点的变化驱动动画人物的动作

除此之外，还有很多有趣的应用：

人机交互：通过识别人手部的动作和姿态去控制其他物体；
动物行为分析：检测动物关键点，分析动物的行为

二、2D 姿态估计

在图像中定位人体关键点（通常为人体主要关节）的坐标，如臀部、颈部和左右手坐标等。
在这里插入图片描述

基本思路1：基于回归 (Regression Based)

关键点检测问题可以认为是一个回归问题，输入一张图片，让模型回归关键点的坐标，即 $(x_1, y_1, x_2, \dots, x_J, y_J)=f_{\Theta}(I)$ 通常深度学习模型直接回归坐标有些困难，精度不是最优
2D人体姿态估计

基本思路2：基于热力图 (Heatmap Based)

基于热力图的方法，并不是直接的回归关键点的坐标，而是预测关键点位于每个位置的概率，即
$H_{1\dots J}=f_{\Theta}(I)$
其中， $H_j(x_j, y_j)=1$ 表示关键点 $j$ 位于 $x_j, y_j)$ 的概率为1， $H$ 被称为热力图，尺寸与原图 $I$ 相同或等比例缩小。
模型预测热力图比直接回归坐标相对容易（更加符合神经网络的结构），模型精度相对更高，因此主流的算法更多的是基于热力图。但是预测热力图的计算消耗大于直接回归。

热力图可以基于原始关键点坐标生成，作为训练网络的监督信息；
网络预测的热力图，可以通过求极大值等方法，找到预测的关键点坐标；

在这里插入图片描述

从数据标注到热力图

**问题1：**如何根据关键点的坐标生成对应2D热力图呢？
真值中，每个关键点对应一个2D热力图 $H_j \in \mathbb R^{H \times W}$ ，第 $j$ 个关键点 $x_j, y_j)$ 对应的热力图为： $H_j(x, y)=exp(-\frac{(x-x_j)^2+{y-y_j}^2}{\sigma^2})$
$\sigma$ 是可以调节的参数。
使用热力图训练模型就是根据关键点标注，按照上述流程生成热力图，进而在对模型进行监督训练。
问题2：如何从第 $j$ 个关键点生成的热力图 $H_j(x, y)$ 或模型预测的热力图 $\hat H_j(x, y)$ 中找到关键点 $x_j, y_J)$ 的位置？

朴素方法：求热力图最大值的位置 $x_j, y_j) = {argmax}_{x, y}H_j(x, y)$

朴素方法存在几个问题：1. 可能有多个最大值的点；2. 可能存在噪声点；使得朴素方法的鲁棒性较差

Integral Human Pose Regression
归一化热力图形成点位于不同位置的概率图，在计算位置期望：
$x_j=\sum_{x, y}xP_j(x, y), y_j=\sum_{x,y}yP_j(x, y)$
其中 $P_j$ 为 $H_j$ 生成的概率图:
$P_j(x_i, y_i)) = \frac{e^{H_j(x_i, y_i)}}{\sum_{x, y}e^{H_j(x, y)}}$

优点：1. 可微分； 2. 连续，没有量化误差鲁棒性更好

在这里插入图片描述

多人姿态估计

自顶向下

自顶向下的方法包括基于回归和基于热力图的方法，方法包括两个步骤：
Step 1. 使用目标检测算法检测每个人体的区域；
Step 2. 基于单人图像估计单人姿态；

整体精度受限于目标检测的精度
复杂度会和图像中的人数成正比

在这里插入图片描述

自底向上方法

自底向上的方法包括两个步骤：
Step 1. 使用关键点检测模型检测输入图像中的所有关键点；
Step 2. 基于位置信息和其他辅助信息，将关键点组合成不同人的关键点；

优点：推理速度与人数无关

在这里插入图片描述

单阶段方法

在这里插入图片描述

三、3D 姿态估计

任务描述：给定一张图像，检测图像中所有人所有关键点的空间坐标 $(x, y, z)$

直接基于2D图像回归3D坐标，但是2D图像不包含深度，这是一个病态问题
实际上是隐式接住了语义特征或人体的刚性，实现了3D位姿的推理
利用视频获取更多的帧间信息辅助推断
直接运用同一对象的多视角拍摄图片预测和还原出3D信息

绝对坐标：各关节点在相机坐标系中的坐标；
相对坐标：关键点相对于骨盆点的坐标

可以让模型预测3D的热力图
对于每个关节点，预测目标为 $\times W \times d$ 的3D热力图， $d$ 表示深度方向的分辨率
直接用2D坐标预测3D坐标，就可以取得比较好的效果，不需要借助图像。

针对每个人，计算所有关键点相对于盆骨的相对坐标
计算所有人的、同一类关键点的均值方差
使用该均值方差对这一类的相对坐标进行归一化

利用2D关键点结果预测3D关键点位置
使用网络产生不同视角的特征图，根据相机参数，将特征整合到一个整体特征当中，在使用3D卷积神经网络预测每个人的位置

四、评估指标

Percentage of Correct Parts (PCP)

PCP以肢体的检出率作为评价指标
考虑每个人的左右大臂小臂大腿小腿，共计8个肢体
如果两个预测关节位置和真实肢体关节位置之间的距离小于等于肢体长度的一半，则认为肢体已检测到且是正确的部分
对于某个特定的部位，完整数据集上的指标为 $PCP=\frac{整个数据集中正确检出的此部位数}{整个数据集中此部位综述}$
在这里插入图片描述

Percentage of Detected Joints (PDJ)

PDJ 以关键点的位置精度作为评价指标
通常考虑头、肩、肘、腕、臀、膝、踝几个关键点，如果预测关节和真实关节之间的距离在躯干直径的某个比例范围内，则认为检测到检测到了关节。并可以通过改变该比例，可以获得不同程度的定位精度的检测率。
例如： $P D J @0.2$ =检测到的预测位置和真实位置间距<0.2*躯千直径)的关键点的比例

Percentage of Correct Key-points (PCK)

PCK以关键点的检测精度作为评价指标
如果预测关节和真实关节之间的距离在某个阈值(可变)内，则认为检测到的关键点是正确的。在2D与3D(PCK3D)任务中均可使用。
PCK阈值通常是根据对象的比例设置的，对象的比例封闭在边界框内。例如，闻值可以是: $PCK_h@0.5$ 阈值=头部骨骼链接的50%;PCK@0.2阈值=0.2*躯干直径，有时也以150 mm作为阈值