convolutional pose machines 论文解读

paper title: convolutional pose machines
paper link: https://arxiv.org/abs/1602.00134
oral or demo video:https://www.youtube.com/watch?v=L9Z8ijMfCCM
https://www.youtube.com/watch?v=EOKfMpGLGdY
project: -
github:https://github.com/shihenw/convolutional-pose-machines-release
https://github.com/timctho/convolutional-pose-machines-tensorflow
conf & anthor: CVPR16,Shih-En Wei et al
arXiv submit v1: 2016.01 google citation:895(2019.07.12)

姿态估计系列:

主要内容
这篇文章主要介绍了在Pose Machine框架融入卷积神经网络,学习图像特征和图像相关空间模型,并应用于姿态估计任务。文章的主要贡献是对结构化预测任务(如人体姿态估计)中的变量之间的长期依赖的隐式建模。具体来说,文章设计了一种由卷积神经网络构成的序列架构,整个预测流程分为多个stage,后面的stage使用前一个stage输出的belief map作为输入的一部分,与当前stage的卷积结果进行合并;这样随着stage的增加,得到更好的关节点位置的预测结果。另一方面,文章提出的方法通过目标函数强制生成中间监督,从而对梯度进行增益并调整学习过程,解决了梯度消失的问题。

网络结构
1.Pose Machine
Pose machines的示意图如下所示,一共有T个stage,前一个stage的结果经过变换后会作为下一个stage的输入的一部分;除第一个stage之外,其他stage的结构完全相同。部分符号的含义如下:

  • X X X: 从图像中提取的特征(stage=1)
  • g t g_t gt: 第t个stage上,从图像特征到各个关节点的预测分数的分类器
  • b t b_t bt: 第t个stage上,预测的分数(belief maps)
  • X ′ X' X: 从图像中提取的特征(stage>1)
  • ψ t > 1 \psi_{t>1} ψt>1: 从belief map到上下文特征的映射

pose machines
Pose machines中,第一个stage中,从图像中进行特征提取,经过分类器 g 1 g_1 g1得到各个关节点的belief maps,并输入到下一个stage中;在下一个stage中,这些belief maps经过映射函数后会得到上下文特征,同时在当前stage中,也会进行图像特征提取,之后图像特征和上下文特征融合后再次进行belief maps的预测。后面的stage重复这个过程,使预测的关节点位置的准确性不断提高。在Pose Machines的论文中 g t g_t gt用的是boosted random forest, X X X X ′ X' X用的是人工设计的特征提取方法, ψ t > 1 \psi_{t>1} ψt>1用是人工设计的上下人特征映射方法。

2.Convolutional Pose Machines
在CPM中,图像特征和上下文特征都是通过卷积网络自动学习得到的,另外卷积网络是完全可倒的,所以网络的所有stage都是可以实现端到端的训练的。CPM的网络结构如下图所示:
CPM network
在stage1中,通过7个卷积层得到P+1(P个关节点,1个背景)个belief map的输出。在stage1中,网络感受野大小是160x160,输入图片的大小是368x368,可以看做是在局部区域上做关节点的检测。在后面的stage中,不仅有当前stage中提取的图像特征,还使用了上一个从上个stage的belief maps,但是与Pose Machines不同的是,CPM中没有显式的 ψ \psi ψ函数来计算上下文特征,而是通过belief maps上的预测器的感受野来完成这一函数。
网络的设计原则是让第二个stage的网络的输出层上的感受野足够大,以使得可以学习到关节点之间的复杂和长程的相关性。在stage2中,有三个11x11的卷积,感受野的大小为31,并相当于在原始图上的约400x400大小的区域,可以覆盖到图像中任何的关节。

损失函数
在Pose Machines的序列预测框架中,每个stage都被训练用来产生关节点的belief maps;在CPM中,通过在每一个节点都定义一个 l 2 l_2 l2损失来促使网络达到CPM框架中的这种表示,另外 t > 2 t>2 t>2的stage中的特征提取网络都是共享参数的。最后的损失函数的形式为:
L o s s = ∑ t = 1 T ∑ p = 1 P + 1 ∑ z ∈ Z ∣ ∣ b t p ( z ) − b ∗ p ( z ) ∣ ∣ 2 Loss=\sum_{t=1}^T\sum_{p=1}^{P+1}\sum_{z\in{Z}}||b_t^p(z)-b_*^p(z)||^2 Loss=t=1Tp=1P+1zZbtp(z)bp(z)2
其中:

  • z = [ u , v ] z=[u,v] z=[u,v]表示的是输出的belief map上的空间点, Z Z Z为所有 z z z的集合
  • b t p ( z ) b_t^p(z) btp(z)表示第 t t t个stage中 z z z位置上的第 p p p个关节点预测得分
  • b ∗ p ( z ) b_*^p(z) bp(z)表示 z z z位置上的第 p p p个关节点真实得分

论文结果
1.MPII数据集上,PCKh@0.5为87.95%,在比较难预测的ankle关节上,PCKh@0.5为78.28%;
2.LSP数据集上,PCKh@0.5为84.32%;
3.FLIC数据集上,PCK@0.2在elbow关节和wrist关节上分别为97.59%和95.03%。

  • 3
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值