OpenPose

梦醒沉醉

已于 2025-02-18 13:27:18 修改

阅读量1.9k

点赞数 18

分类专栏：机器学习文章标签：姿态识别

于 2025-02-16 15:45:44 首次发布

本文链接：https://blog.csdn.net/qq_51180928/article/details/145649408

版权

机器学习专栏收录该内容

35 篇文章

订阅专栏

文章目录

摘要
Abstract
1. 引言
2. 框架
3. 创新点和不足
- 3.1 创新点
- 3.2 不足
参考
总结

摘要

OpenPose是一个能够实时进行多人姿态识别的模型。其核心贡献在于提出了部位亲和场，该技术不仅编码了肢体支撑区域的位置信息，还编码了肢体的朝向信息，从而有助于连接亲和场两端的关键点以形成肢体。部位亲和场在OpenPose的前向神经网络训练和多人解析过程中发挥着重要作用。前向神经网络是一个具有两个分支、多个阶段的卷积神经网络，能够同时预测部位亲和场和置信图。在网络训练过程中，通过部位亲和场和置信图的真实值与预测值之间的损失监督，该网络能够更准确地预测部位亲和场和置信图。在多人解析过程中，OpenPose将原本K维、NP-Hard的匹配问题转化为每类肢体对应的两个关键点之间的二分最大权重匹配问题，并将任意两个关键点之间的部位亲和场值作为这两个关键点连接构成边的权重。尽管OpenPose在姿势识别方面表现出色，但它仍然面临一些问题，例如在复杂场景或姿态下检测精度会下降，以及计算复杂度较高。

Abstract

OpenPose is a model capable of real-time multi-person pose recognition. Its core contribution lies in the introduction of the Part Affinity Field (PAF), which not only encodes the positional information of body support areas but also captures the orientation information of the limbs, thus aiding in the connection of keypoints at the two ends of the affinity field to form a body part. The Part Affinity Field plays a crucial role in both the forward neural network training and multi-person parsing processes of OpenPose. The forward neural network is a convolutional neural network with two branches and multiple stages that can simultaneously predict both the part affinity field and confidence maps. During network training, the network is supervised by the loss between the ground truth and predicted values of the part affinity field and confidence maps, which enables it to more accurately predict both the part affinity field and the confidence maps. In the multi-person parsing process, OpenPose transforms the originally K-dimensional, NP-Hard matching problem into a binary maximum weight matching problem between two keypoints of each body part, using the part affinity field values between any two keypoints as the weights of edges connecting those keypoints. Despite its outstanding performance in pose recognition, OpenPose still faces some challenges, such as decreased detection accuracy in complex scenes or poses and high computational complexity.

1. 引言

推理图片中多个人的姿势是一个挑战，主要体现在以下几个方面：1. 每个图片包含未知数量的人，这些人可能出现在图片的任何位置并且这些人在图片中的尺寸也不一样。2. 人与人之间的交互比如接触、遮挡等都会引起复杂的空间干扰，从而导致部位难以联系到个体。3. 运行时的复杂度往往随着图片中人数的增长而增长，以致于难以进行实时推理。
之前普遍的方法是运用一个人类检测器，然后对人类侦测器侦测到的结果进行单人姿态估计。这种自顶向下的方法利用现有的技术来进行担任单人姿态估计，但是在流程早期可能遇到一个问题，即在多个人极端靠近的情况下，人类侦测器可能失败，比如错误地将两个人的部分身体视为一个人，漏检部分人物。接着，后续的单人姿态估计会基于错误的人物分割结果，从而导致结果严重不准确。这种早期错误在整个流程中是无法纠正。此外，如果使用该流程进行多人姿态估计，还有一个致命的缺点——图片中人数越多，要进行的单人姿态估计也越多，导致极高的计算复杂度。
与之相反，自底向上的方法为早期错误提供了健壮性，并且将运行时的复杂度与图像中人的数量解耦。但是之前自底向上的方法不直接使用来自其他身体部位和其他人的全局上下文线索，并且在最终的解析上需要代价昂贵的全局推理。

2. 框架

OpenPose的运行流程如下：OpenPose将尺寸为 $w\times h$ 的彩色图片作为输入，将这张图片送入一个前向神经网络，产生一系列关于身体部位位置的二维置信图的集合 $S=\{S_1, S_2, \cdots, S_J\}$ ( $S_j\in \mathbb{R}^{w\times h}, j\in\{1,2\cdots, J\}$ ， $J$ 是部位的个数)和一系列关于部位亲和的二维向量场的集合 $L=\{L_1, L_2, \cdots, L_C\}$ ( $L_c\in \mathbb{R}^{w\times h \times 2}, c\in \{1, 2, \cdots, C\}$ ， $C$ 是肢体的个数，肢体指的是两个部位之间的连线)，该二维向量场编码了部位之间的关联程度；通过贪心推理来解析置信图和亲和场，以输出图像中所有人的二维关键点并连接指定关键点来形成肢体。
在这里插入图片描述

2.1 前向神经网络

这个两分支、多阶段的前向神经网络同时预测置信图和部位亲和场。输入的图片首先经过VGG19的前10层(第3个最大池化层前的10个层)得到一系列特征图 $F$ ；假设每个阶段 $t\in\{1, 2, \cdots, T\}$ ，则 $\rho^t$ 代表 $t$ 时刻时分支一的卷积神经网络， $\psi^t$ 代表 $t$ 时刻时分支二的卷积神经网络，那么t时刻时的 $S^t$ 和 $L^t$ 的公式如下：
$\begin{aligned} &S^t=\left\{\begin{aligned}\quad \quad \rho^1(F)\quad \quad,&t=1\\\rho^t(F,S^{t-1},L^{t-1}),&t\ge 2\end{aligned}\right.\\ &L^t=\left\{\begin{aligned}\quad \quad \psi^1(F)\quad \quad,&t=1\\\psi(F,S^{t-1},L^{t-1}),&t\ge2\end{aligned}\right.\\ &F=cat(F,S^t,L^t)(三者在颜色通道上拼接) \end{aligned}$
在这里插入图片描述
为了引导网络在第一个分支中迭代预测身体部位的置信图，在第二个分支中预测部位亲和场，因此在每个阶段末尾引入了中间的监督损失， $t$ 时刻时两个分支内监督损失的公式如下：
$\begin{aligned} &f_S^t=\sum_{j=1}^J\sum_{p}W(p)\|S_j^t(p)-S_j^*(p)\|_2^2\\ &f_L^t=\sum_{c=1}^C\sum_{p}W(p)\|L_c^t(p)-L_c^*(p)\|_2^2. \end{aligned}$
其中 $S_j^*$ 是真实的部位置信图， $L_c^*$ 是真实的部位亲和场， $W$ 是一个二进制掩码，当图像位置 $p$ 处的注释缺失时为0，否则为1。这个掩码避免对缺失标注部分的惩罚，从而确保网络在训练过程中能够专注于有标注的部分，提高训练的准确性和鲁棒性。整个网络的损失函数如下：
$f=\sum_{t=1}^T(f_S^t+f_L^t).$

2.2 置信图

为了在训练过程中计算 $f_S$ ，需要计算从注释的二维关键点上计算真实的置信图 $S^*$ 。每个置信图都是特定身体部位出现在每个像素位置的置信度的二维表示图。如果图像中出现单个人，则在对应部位可见的情况下每个置信图中都应存在单个峰；如果图像中存在多个人，则对于每个人 $k$ ，应该存在对应于每个可见部位 $j$ 的峰值。
首先要计算每个人 $k$ 对应部位 $j$ 的单人置信图 $S_{j,k}^*$ 。假设 $x_{j,k}\in \mathbb{R}^2$ 是图像中人类 $k$ 对应身体部位 $j$ 的真实位置，在 $S_{j,k}^*$ 中位置 $p\in \mathbb{R}^2$ 处的值计算公式如下：
$S_{j,k}^*(p)=\exp(-\displaystyle\frac{\|p-x_{j,k}\|_2^2}{\sigma^2}).$
其中 $\sigma$ 控制峰值的传播。对于多人场景，多人置信图的计算公式如下：
$S_j^*(p)=\max\limits_kS_{j,k}^*(p).$
取最大值操作只是在置信图中保留了最高置信度的位置，而不会改变其他关键点的检测结果，如下图所示。
在这里插入图片描述
在预测阶段，OpenPose预测置信图，并且通过非最大值抑制来获得身体部位的候选关键点。

2.3 部位亲和场

通过置信图可以求出身体部位的候选关键点，那么如何在不知道人数的情况下将这些候选关键点组成肢体，并最终形成一个人的全身姿势呢？如下图中(a)所示有2种关键点，这6个关键点如何进行连接以构成肢体？
一种可能的方法是检测肢体上每对部位之间的中点，并检查这个中点是否属于身体部位，如果属于，则这个中点对应的两个关键点应进行连接以形成肢体。但是当人们拥挤在一起时，这些中点可能会属于身体部位，从而进行了错误的肢体连接，如下图(b)中的绿色线段所示。导致这种错误的原因如下：1. 这种方法只编码了每个肢体的位置，而没有编码每个肢体的朝向。2. 这种方法将肢体的支撑区域减少到单个点。
为了解决上面出现的问题，论文提出了部位亲和场，它编码了肢体支撑区域的位置和朝向信息，如下图©所示。对于属于特定肢体区域的每个像素，部位亲和场编码了肢体的一个部位到剩下另一个部位的方向。并且每种肢体都有相应的亲和场来连接它关联的两个身体部位。
在这里插入图片描述
下面从图片中给出的单个肢体来介绍部位亲和场。假设 $x_{j_1, k}$ 和 $x_{j_2,k}$ 是图片人类 $k$ 对应肢体 $c$ 的两个身体部位 $j_1$ 和 $j_2$ 。如果一个点 $p$ 在这个肢体上，该点处的亲和场值 $L_{c,k}^*(p)$ 是一个从 $j_1$ 指向 $j_2$ 的单元向量；如果 $p$ 是不在肢体上的任意点，则该点处的亲和场值为零向量。在位置 $p$ 处的亲和场值计算公式如下：
$L_{c,k}^*=\left\{\begin{aligned}v, &如果p在人类k的肢体c上\\0, &其他.\end{aligned}\right.$
其中 $v=\displaystyle\frac{x_{j_2,k}-x_{j_1,k}}{\|x_{j_2,k}-x_{j_1,k}\|}$ ，在肢体上的点 $p$ 满足如下约束条件： $0\le v·(p-x_{j_1,k})\le l_{c,k}和|v_{\perp}·(p-x_{j_1,k})|\le \sigma_l$ ， $l_{c,k}$ 是肢体长度 $x_{j_2,k}-x_{j_1,k}\|_2$ ， $\sigma_l$ 是肢体宽度， $v_{\perp}$ 是垂直于 $v$ 的一个向量。
在这里插入图片描述
对于多人场景，多人部位亲和场的计算公式如下：
$L_c^*(p)=\frac{1}{n_c(p)}\sum_{k}L_{c,k}^*(p).$
其中 $n_c(p)$ 是在位置 $p$ 处所有 $L_{c,k}^*(p)$ 中非零向量的个数。
在预测阶段，通过沿着连接候选部位的线段计算对应部位亲和场的积分来测量候选部位之间的关联，假设两个候选部位 $d_{j_1}$ 和 $d_{j_2}$ ，公式如下：
$E=\displaystyle\int_{u=0}^{u=1}L_c(p(u))·\frac{d_{j_2}-d_{j_1}}{\|d_{j_2}-d_{j_1}\|_2}du.$
其中 $p(u)=(1-u)d_{j_1}+ud_{j_2}$ 。在实践中，通过采样求和均匀间隔的 $u$ 值来近似积分。

2.4 多人解析

上面提出的部位亲和场只是测量了两个候选部位之间的联系分数，并没有给出解决多个候选部位之间如何连接以形成肢体的问题。这些候选部位定义了一系列可能的肢体，通过上面部位亲和场的积分公式可能得到每个候选肢体的得分。在这些候选肢体中找到最佳解析的问题对应于已知为NP-Hard的K维匹配问题，如下图（c）所示。
在这里插入图片描述
假设 $D_J=\{d_j^m : for j\in \{1, 2, \cdots, J\}, m\in \{1,2, \cdots, N_j\}$ ，其中 $N_j$ 是部位 $j$ 的候选数量， $d_j^m\in \mathbb{R}^2$ 是部位 $j$ 的第 $m$ 个候选关键点的位置，目标是要将这些候选部位与来自同一个人的其他部位进行联系。定义 $z_{j_1j_2}^{mn}\in\{0, 1\}$ 判断两个候选部位 $d_{j_1}^m$ 和 $d_{j_2}^n$ 是否应进行连接以构成肢体，上述目标可以转换为从一系列可能的连接中找到最优安排 $Z=\{z_{j_1j_2}^{mn} : for \ j_1, j_2 \in \{1, 2, \cdots, J\}, m\in \{1, 2, \cdots, N_{j_1}\}, n\in\{1, 2, \cdots, N_{j_2}\}\}$ 。
如果考虑一对对应于第 $c$ 种肢体的部位 $j_1$ 和 $j_2$ ，那么找到最佳关联的问题就简化为最大权重二分图匹配问题。在这个图匹配问题中，图的节点是候选部位集合 $D_{j_1}$ 和 $D_{j_2}$ ，而边是这两个候选部位集合之间所有可能的连接，并且边的权重由上面部位亲和场的积分公式给出。二分图中的匹配是以没有两条边共享一个节点的方式选择的边的集合，因此目标转换为对于所有需要进行肢体连接的两个候选关键点构成的二分图找到一个匹配中边权重最大的匹配。
该问题可以由以下约束解出：
$\begin{aligned} &\max\limits_{Z_c}E_c=\max\limits_{Z_c}\sum_{m\in D_{j_1}}\sum_{n\in D_{j_2}}E_{mn}z_{j_1j_2}^{mn}\\ &s.t. \quad \forall m\in D_{j_1}, \sum_{n\in D_{j_2}}z_{j_1j_2}^{mn}\le1\\ &\quad \quad \ \ \forall n\in D_{j_2},\sum_{m\in D_{j_1}}z_{j_1j_2}^{mn}\le 1. \end{aligned}$
其中 $E_c$ 是肢体 $c$ 所有匹配的权重总和， $Z_c$ 是 $Z$ 关于肢体 $c$ 的子集， $E_{mn}$ 是由上面部位亲和场积分公式计算出的关于部位 $d_{j_1}^m$ 和 $d_{j_2}^n$ 的部位亲和场值，两个约束确保没有两条边共享一个节点。可以使用Hungarian算法来获得这个匹配的结果。
对于寻找多人的整个姿势来说，决定 $Z$ 是一个K维的匹配问题，并且是NP-Hard的，因此论文添加了两个非约束条件：1. 选择最小数量的边来获得人类姿势的生成树骨架，而不是使用完整的图，如上图中（c）所示。2. 将匹配问题进一步分解为一系列匹配的子问题，并独立确定相邻树节点中的匹配，如上图中(d)所示。在这两个非约束条件的帮助下，这个优化问题可以转换为如下问题：
$\begin{aligned} &\max\limits_ZE=\sum_{c=1}^C\max\limits_{Z_c}E_c\\ &\max\limits_{Z_c}E_c=\max\limits_{Z_c}\sum_{m\in D_{j_1}}\sum_{n\in D_{j_2}}E_{mn}z_{j_1j_2}^{mn}\\ &s.t. \quad \forall m\in D_{j_1}, \sum_{n\in D_{j_2}}z_{j_1j_2}^{mn}\le1\\ &\quad \quad \ \ \forall n\in D_{j_2},\sum_{m\in D_{j_1}}z_{j_1j_2}^{mn}\le 1. \end{aligned}$

3. 创新点和不足

3.1 创新点

OpenPose可以实时地检测图像中的多个人体姿态，而无需事先确定每个人的身份或位置；OpenPose采用Bottom-up的方法，即先检测图像中所有的肢体关键点，然后再进行组装。这种方法虽然对肢体关节的再组装有一定难度，但整体效率较高，处理时间不会随着图像中人体数量的增加而显著增加；通过PAFs算法和CNN架构的结合，OpenPose能够准确地预测出人体各部位的位置和连接关系。

3.2 不足

OpenPose的检测精度可能会因人体姿态的不同而有所变化。在一些复杂的姿态下，检测精度可能会下降；OpenPose对于复杂场景的适应性不如AlphaPose，如人体遮挡、光照变化等情况下，估计精度会有所下降；OpenPose需要较高的计算能力和显存，对于一些低端设备来说，可能无法运行。

参考

Zhe Cao, Tomas Simon, Shih-En Wei, and et al. Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields.
代码来源：https://github.com/donnyyou/torchcv