Human Pose Estimation | Convolutional Pose Machines (2016)

Convolutional Pose Machines - [CODE] - Wei, S., Ramakrishna, V., Kanade, T., & Sheikh, Y. (CVPR 2016).

该文是最早将深度学习应用于最早将深度学习应用于人体姿态估计的研究之一。主要网络结构分为多个stage,各个阶段都使用了中间监督训练,避免过深网络难以优化的问题。通过改变卷积核大小来得到更大的感受域,得到多个尺度输入的特征和响应,既能确保精度,又考虑了各个部件之间的远距离关系。其中第一个stage会产生初步的关键点的检测效果,接下来的几个stage均以前一个stage的预测输出和从原图提取的特征作为输入,进一步提高关键点的检测效果。

Abstract

定义

  • 姿势机(Pose Machines, PMs): PMs提供了一个用于学习丰富的隐式空间模型的顺序预测框架。
  • 卷积姿势机(Convolutional Pose Machines,CPMs): CPMs集成了PMs架构的优点并将其与卷积提供的优势相结合。PMs架构优点:图像和多部分线索之间的远程依赖关系的隐式学习、学习和推理之间的紧密集成、模块化顺序设计;卷积架构优点:直接从数据学习图像和空间上下文特征表示的能力; 允许通过反向传播进行全局联合训练的可微架构; 以及有效处理大型训练数据集的能力。

问题: 如何将CNN合并到PMs中,以学习图像特征(Image features)和图像相关的空间模型(Image-dependent spatial models)来完成姿势估计任务?

贡献: 对结构化预测任务(例如关节姿态估计)中变量之间的远程依赖关系进行隐式建模。

实现: 设计一个由CNN组成的顺序架构,该架构直接对先前阶段的 置信图(Belief map) 进行操作,对零件位置产生越来越精细的估计,而不需要显式的图形模型式推理。

PROs: 该方法通过提供强制中间监督的自然学习目标函数来解决训练期间梯度消失的特有困难,从而补充反向传播梯度并调节学习过程。

Benchmarks: MPII、LSP 、FLIC

Introduction

Fig 1
CPMs由一系列预测器组成,经过训练可以在每个图像位置进行密集预测(dense predictions)。如图所示,为序列的每个Stage中对运动员右肘位置的逐渐精细的估计。

  • a) Stage 1:可以看到运动员的左右手肘均被估计,且左手肘比右手肘的标记更明显。这是由于从local evidence进行的预测往往会造成混淆。
  • b) Stage 2:此处右手肘的标记明显于左手肘的。通过上下文有助解决歧义。
  • c) Stage 3:此处只有右手肘被估计。通过额外的迭代收敛于该解决方案。

Methodology

Convolutional Pose Machines(CPMs)

在这里插入图片描述
CPMs架构与接受域。 如图所示,为任意Stage的CPMs卷积架构和跨层接受域。PMs 如 Fig(a)和 Fig(b)所示。

  • Fig(a)&(c):Stage 1 仅对图像证据进行操作的架构;
  • Fig(b)&(d):后续 Stage 的架构,对图像证据及前一阶段的 belief map 进行操作。该架构对所有后续阶段重复。在每个阶段之后,网络会使用中间损失层进行本地监督,以防止训练期间梯度消失。
  • Fig(e):展示了架构图像(以左膝为中心)上的有效接受域。其中,较大的接受域能够捕获远程空间依赖性。(e.g.,头部和膝盖之间的空间依赖性,颜色效果最明显)。
Keypoint Localization Using Local Image Evidence
使用本地图像证据进行关键点定位

在这里插入图片描述
来自易于检测部分的 belief map 的空间上下文 可以为定位难以检测部分提供强有力的线索。肩部、颈部和头部的空间上下文可以帮助消除后续 Stage 中右肘 belief map 上的错误(红色)并加强正确(绿色)估计。

Sequential Prediction with Learned Spatial Context Features
使用学习的空间上下文特征进行序列预测

在这里插入图片描述
空间环境的大型接受域。具有较大接受域的网络能够有效地对零件之间的长距离空间相互作用进行建模。

Discussion

Pros:

  • 提供端到端(end-to-end)架构,解决了结构化预测问题,且无需图形模型样式推理。
  • 由CNN组成的顺序架构能够在Stage之间传达逐渐精细的untertainty-preserving beliefs以进行姿势空间模型的隐式学习。

Cons:

  • 多人场景下估计失败。
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值