论文解读-Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields

最新推荐文章于 2020-12-08 11:06:14 发布

diligent_321

最新推荐文章于 2020-12-08 11:06:14 发布

阅读量2.4k

点赞数 1

分类专栏：深度学习算法文章标签：人体关键点检测

本文链接：https://blog.csdn.net/diligent_321/article/details/86659763

版权

本文详细解读了Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields论文，探讨了“bottom-up”方法的不足与改进，特别是Part Affinity Fields的概念，用于解决人体关键点检测问题。通过关节联通区域，结合多任务网络架构，实现了高效准确的多人2D姿态估计。此技术在OpenPose中得到应用，适用于实时场景。

摘要由CSDN通过智能技术生成

文章目录

最近需要做视频分类相关的工作，在做技术调研过程中，了解到视频分类包含了两种形式，（1）通用的多标签视频分类，它的特点是标签为静态的，也即做分类时不需要考虑图像帧之间的关联性，因此跟基于图片的分类没什么差异了。（2）行为识别，因为是“行为”，所以这类任务需要考虑图像帧之间的关联性，比如“芭蕾舞”、“绘画”等，包含了3D卷积和Two-stream两种方法，在看了这方面的综述文章后发现是全新的方向。因为笔者之前一直做的2D目标检测方向，为了能更好地王行为识别方向过渡，选择先从2D的行为识别啃起，也即人体关键点检测，因此后面的几篇博文都是围绕关键点检测展开的。

说起人体关键点检测，就不得不提OpenPose算法了，它因为速度和精度的权衡在实际中得到了广泛的应用，它包含了人体骨骼关键点检测和脸部关键点检测。笔者在阅读它所使用的人体骨骼关键点检测算法后，有了对这个方向新的理解，故这里记录下来。

1 “top-down” vs “bottom-up”

人体姿态估计可以分为两种思路，（1）“top-down”，它指先检测人体区域，再检测区域内的人体关键点。（2）“bottom-up”，它指先检测图片中所有的人体关键点，然后将这些关键点对应到不同的人物个体。这里需要提及一下，第一种方案因为需要对检测出的每个人体区域，分别做前向关键点检测，所以速度较慢，而OpenPose采用的则为第二种方案。

2 动机

2.1 已有"bottom-up"方法缺点

（1）未利用全局上下文先验信息，也即图片中其他人的身体关键点信息；

（2）将关键点对应到不同的人物个体，算法复杂度太高。

2.2 改进点

论文中提出了新的概念“Part Affinity Fields (PAFs)”，笔者将其翻译成关节联通区域。每个像素是2D的向量，用于表征位置和方向信息。基于检测出的关节点和关节联通区域，使用greedy inference算法，可以将这些关节点对应到不同人物个体。

3 方案

整个的技术方案为“two-branch multi-stage CNN”，如下图，其中一个分支用于预测打分图 $S$ ，另外一个分支用于预测关节联通区域 $L$ 。

符号说明：

$S=(S_{1}, S_{2}, ..., S_{J})$ ：score maps，其中 $J$ 表示关节点个数， $S_{i}\in R^{w\times h}$ 用于表征第 $i$ 个关节点的score map；

$L=(L_{1}, L_{2}, ..., L_{C})$ ：part affinities，其中 $C$ 表示关节连通域（关节点对）的个数， $L_{c}\in R^{w\times h\times 2}$ 用于表征第c个关节联通域的联通情况，2D表征像素点的位置和方向，图像化表示如下，
在这里插入图片描述
其中，左图为"right elbow"和“right wrist”对应的关节联通域。右图为局部图像块放大后的表示；

3.1 Detection 和 Association

论文中所提的多任务网络架构，能够同时预测detection confidence maps和affinity fields，前者用于表征每个像素点是否为关节点的置信度，后者用于表征关节点之间的关联性。
在这里插入图片描述
输入图像经过VGG-19的backbone网络，输出特征图 $F$ ，然后 $F$ 经过Branch 1和Branch 2，分别得到Stage 1对应的confidence map和affinity field。其中， $\rho^{t}、\phi^{t}$ 表示Stage t不同分支的推理CNN，公式表示如下，

然后，将Stage 1的输出 $S^{1}、L^{1}$ 和 $F $ 做concate操作，作为Stage 2的输入，Stage 2负责对confidence map和affinity field做refinement操作，图像化表示如下，
在这里插入图片描述
关于两个分支的损失函数，作者均采用了 $L_{2}$