OpenPose - Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields 论文解读

最新推荐文章于 2023-12-27 21:37:39 发布

JerryZhang__

最新推荐文章于 2023-12-27 21:37:39 发布

阅读量836

点赞数 2

本文链接：https://blog.csdn.net/JerryZhang__/article/details/98667549

版权

Human Pose Estimation 专栏收录该内容

17 篇文章 6 订阅

订阅专栏

paper title: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
paper link: https://arxiv.org/abs/1611.08050
oral or demo video：https://www.youtube.com/watch?v=OgQLDEAjAZ8
https://www.youtube.com/watch?v=vTC0QKR_uM0
slides:http://posefs1.perception.cs.cmu.edu/Users/ZheCao/Multi-person%20pose%20estimation-CMU.pdf
project:
github:https://github.com/CMU-Perceptual-Computing-Lab/openpose
conf & anthor: CVPR 17,Cao Zhe et al
arXiv submit v1: 2016.12 google citation:1176(2019.07.12)

姿态估计系列：

主要内容：
文章提出了一种从单张RGB图像中进行多人2D人体关节点检测的方法。多人关节点检测主要需要解决两个问题，一是图像关节点位置的确定，二是各个关节点相互连接关系的确定。这篇文章继承CPM论文中的多级CNN人体检测框架，并使用两个分支分别进行关节点检测和关节点连接关系预测，分别输出confidence map和part affinity fields(PAFs)。文章的主要创新点是PAFs和关节点连接方案，另一特色是极高的运行效率。

（1）关于confidence map
confidence map比较好理解，就是网络的最后输出的各个位置上的存在关节点的概率图。groundtruth confidence map的生成方式如下，对于图片中第k个人的第j个关节点(可见关节点),根据实际的关节点位置，使用一个高斯分布对其进行表示：
$S_{j,k}^*(P)=exp(-\frac{||P-X_{j,k}||_2^2}{\sigma^2})$
其中：

$X_{j,k}$ 表示第k个人的第j个关节点在图像中的真实位置；
$\sigma$ 决定了高斯分布的形状；

图像中多个人的同一个关节点的位置表示高斯分布可能会出现重叠，可以去平均或最大值。论文中是取最大值，以保证较近的两个点的两个尖峰不会因为平均而成为一个尖峰。
$S_{j}^*(P)=MAX_k(S_{j,k}^*(P))$
在预测的时候，会使用NMS得到候选关节点。

（2）关于PAFs
confidence map可以表示关节点的位置，但是却无法表示关节点之间的关系；特别图像中的人数很多时候，各个关节点之间的关系是一个重要的信息。文章提出PAFs对关节点之间的关系进行建模,PAFs实际上就是一个2维的向量场，同时包含了位置和反向的信息，用来表示关节点之间的关系。如下图：
limb image

第k个人的手臂关节点肘部 $X_{j_1}^k$ 和手腕 $X_{j_2}^k$ ，点P为手臂上的一点，点P处的PAF的值为：
$PAF_{c,k}^*(P)=\left\{ \begin{aligned} V_P & & if\ P\ in\ limb\ c \\ 0 & & otherwise \\ \end{aligned} \right.$
其中 $c$ 表示关节 $j_1$ 和 $j_2$ 之间的肢干,在上面的图中是前臂部分； $V_P$ 是P点处的PAF的值，是一个与 $j_1$ 关节点指向 $j_2$ 关节点方向一致的单位向量：
$V_P=\frac{(X_{j_2}^k-X_{j_1}^k)}{||X_{j_2}^k-X_{j_1}^k||_2}$
"P in limb c"定义为P在图中蓝色框内，蓝色框的具体范围为：
$0<u_P·u_h<||X_{j_2}^k-X_{j_1}^k||_2 \\ |u_P·u_h|<\sigma_l$
其中：

$u_P$ 表示由点 $X_{j_1,k}$ 连接点 $P$ 的向量；
$u_h$ 和 $u_v$ 分别表示 $u_P$ 的两个相互垂直的分量；
$l_{c,k}=||X_{j_2}^k-X_{j_1}^k||_2$ , $\sigma_l$ 是关于 $l$ 的函数；

在包含多个人的图像中，PAF的ground truth是图像中所有人各自的PAF的平均值，即：
$PAF_{c}^*(P)=\frac{1}{N_c(P)}PAF_{c,k}^*(P)$
其中 $N_c(P)$ 表示所有人的肢干 $c$ 的非零PAF向量的平均值。在测试阶段，通过计算预测的两个关节点连线上的PAF值的积分来衡量这两个关节点之间的连接关系。实际计算的时候，是从两个关节点的连线上以均等距离采样若干个点累加计算PAF向量值。

（3）使用PAFs描述关节点之间的连接关系
得到关节点的位置之后，需要进行关节点的连接。对于两类关节点（如手肘和手腕），由于图像中存在多个人或者误检的情况，可能会检测到多个候选的关节点，所以需要对这些关节点进行一个合适的匹配,如下图所示。这个问题可以看做是一个最大权重二分图匹配问题，边的权重就是关节点之间的PAFs值，可以通过Hungarian算法求解。
graph matching
上面说的是两个关节的情况，对于多个人的全身关节连接问题，就称为K维的匹配问题。文中对这个问题做了两个简化，(1)使用最少的关节来获得人体骨骼的生成树，也就是对实际中没有连接关节，直接认为无连接关系，如上图c；(2)将人体关节点连接问题转化为多个二分匹配问题,也就是对于各个肢干上的两个关节分别进行匹配,如上图d。

网络结构：
网络的主要结构可以描述为两条分支，多个stage连接而成。输入的图片首先经过一段卷积网络（VGG-19前10层）处理后，得到的feature map送入两个分支网络，分别预测confidence map和part affinity fields。网络由多个stage级联而成，每个stage结束后会将两个分支的数据合并到一起，送入下一个stage；每个stage都会输出一个中间监督的结果，计算损失（stage级联、中间监督都和CPM一致）。具体如下图：
network architecture

损失函数：
损失函数由t个stage的所有损失相加得到。在每一个stage中，损失函数包括两部分，confidence map损失和PAF损失，分别如下:
$L_S^t=\sum_{j=1}^J\sum_{P}||S(P)_j^t-S(P)_j^*||_2^2 \\ L_{PAFs}^t=\sum_{c=1}^C\sum_{P}||PAF(P)_c^t-PAF(P)_c^*||_2^2$
其中：

$P$ 表示预测的confidence maps或PAFs上的某一位置；
$j$ 表示第 $j$ 个关节点；
$t$ 网络的第 $t$ 个stage;
$c$ 表示第c个肢干(有两个关节点连接的一段);
$S(P)_j^t$ 表示预测的confidence map中P处的值， $S(P)_j^*$ 表示对应的ground truth值；
$PAF(P)_c^t$ 表示预测的PAFs中P处的值， $PAF(P)_c^*$ 表示对应的ground truth值；

综上损失函数为：
$\sum_{t=1}^T(L_S^t+L_{PAFs}^t)$

论文结果：
(1) MPII full testing set 上mAP为76.5；
(2) COCO Test-chanllege 上AP为60.5；
(3) 运行效率：

GTX 1080, 9个人：parsing 0.58ms + CNN reference 99.6ms
GTX 1080,16个人视频：8.8fps

JerryZhang__

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
OpenPose - Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields 论文解读

paper title: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fieldspaper link: https://arxiv.org/abs/1611.08050oral or demo video：https://www.youtube.com/watch?v=OgQLDEAjAZ8https://www...
复制链接

扫一扫