convolutional pose machines 论文解读

最新推荐文章于 2021-09-28 20:25:26 发布

JerryZhang__

最新推荐文章于 2021-09-28 20:25:26 发布

阅读量1.3k

点赞数 3

分类专栏： Human Pose Estimation 文章标签： human pose cnn CPM

本文链接：https://blog.csdn.net/JerryZhang__/article/details/97562875

版权

Human Pose Estimation 专栏收录该内容

17 篇文章 7 订阅

订阅专栏

paper title: convolutional pose machines
paper link: https://arxiv.org/abs/1602.00134
oral or demo video：https://www.youtube.com/watch?v=L9Z8ijMfCCM
https://www.youtube.com/watch?v=EOKfMpGLGdY
project: -
github:https://github.com/shihenw/convolutional-pose-machines-release
https://github.com/timctho/convolutional-pose-machines-tensorflow
conf & anthor: CVPR16,Shih-En Wei et al
arXiv submit v1: 2016.01 google citation:895(2019.07.12)

姿态估计系列：

主要内容：
这篇文章主要介绍了在Pose Machine框架融入卷积神经网络，学习图像特征和图像相关空间模型，并应用于姿态估计任务。文章的主要贡献是对结构化预测任务（如人体姿态估计）中的变量之间的长期依赖的隐式建模。具体来说，文章设计了一种由卷积神经网络构成的序列架构，整个预测流程分为多个stage,后面的stage使用前一个stage输出的belief map作为输入的一部分，与当前stage的卷积结果进行合并；这样随着stage的增加，得到更好的关节点位置的预测结果。另一方面，文章提出的方法通过目标函数强制生成中间监督，从而对梯度进行增益并调整学习过程，解决了梯度消失的问题。

网络结构：
1.Pose Machine
Pose machines的示意图如下所示，一共有T个stage,前一个stage的结果经过变换后会作为下一个stage的输入的一部分；除第一个stage之外，其他stage的结构完全相同。部分符号的含义如下：

$X$ : 从图像中提取的特征(stage=1)
$g_t$ : 第t个stage上，从图像特征到各个关节点的预测分数的分类器
$b_t$ : 第t个stage上，预测的分数(belief maps)
$X^{'}$ : 从图像中提取的特征(stage>1)
$\psi_{t>1}$ : 从belief map到上下文特征的映射

Pose machines中，第一个stage中，从图像中进行特征提取，经过分类器 $g_1$ 得到各个关节点的belief maps，并输入到下一个stage中；在下一个stage中，这些belief maps经过映射函数后会得到上下文特征，同时在当前stage中，也会进行图像特征提取，之后图像特征和上下文特征融合后再次进行belief maps的预测。后面的stage重复这个过程，使预测的关节点位置的准确性不断提高。在Pose Machines的论文中 $g_t$ 用的是boosted random forest， $X$ 和 $X^{'}$ 用的是人工设计的特征提取方法， $\psi_{t>1}$ 用是人工设计的上下人特征映射方法。

2.Convolutional Pose Machines
在CPM中，图像特征和上下文特征都是通过卷积网络自动学习得到的，另外卷积网络是完全可倒的，所以网络的所有stage都是可以实现端到端的训练的。CPM的网络结构如下图所示：
CPM network
在stage1中，通过7个卷积层得到P+1(P个关节点，1个背景)个belief map的输出。在stage1中，网络感受野大小是160x160，输入图片的大小是368x368,可以看做是在局部区域上做关节点的检测。在后面的stage中，不仅有当前stage中提取的图像特征，还使用了上一个从上个stage的belief maps,但是与Pose Machines不同的是，CPM中没有显式的 $\psi$ 函数来计算上下文特征，而是通过belief maps上的预测器的感受野来完成这一函数。
网络的设计原则是让第二个stage的网络的输出层上的感受野足够大，以使得可以学习到关节点之间的复杂和长程的相关性。在stage2中，有三个11x11的卷积，感受野的大小为31，并相当于在原始图上的约400x400大小的区域，可以覆盖到图像中任何的关节。

损失函数：
在Pose Machines的序列预测框架中，每个stage都被训练用来产生关节点的belief maps；在CPM中，通过在每一个节点都定义一个 $l_2$ 损失来促使网络达到CPM框架中的这种表示，另外 $t > 2$ 的stage中的特征提取网络都是共享参数的。最后的损失函数的形式为：
$Loss=\sum_{t=1}^T\sum_{p=1}^{P+1}\sum_{z\in{Z}}||b_t^p(z)-b_*^p(z)||^2$
其中：

$z = [u, v]$ 表示的是输出的belief map上的空间点, $Z$ 为所有 $z$ 的集合
$b_t^p(z)$ 表示第 $t$ 个stage中 $z$ 位置上的第 $p$ 个关节点预测得分
$b_*^p(z)$ 表示 $z$ 位置上的第 $p$ 个关节点真实得分

论文结果：
1.MPII数据集上，PCKh@0.5为87.95%，在比较难预测的ankle关节上，PCKh@0.5为78.28%；
2.LSP数据集上，PCKh@0.5为84.32%；
3.FLIC数据集上，PCK@0.2在elbow关节和wrist关节上分别为97.59%和95.03%。

JerryZhang__

关注

3
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
convolutional pose machines 论文解读

paper title: convolutional pose machinespaper link: https://arxiv.org/abs/1602.00134oral or demo video：https://www.youtube.com/watch?v=L9Z8ijMfCCMhttps://www.youtube.com/watch?v=EOKfMpGLGdYproject...
复制链接

扫一扫