P4 2019年人体姿态估计指引

2019年的研究聚焦于深度学习在人体姿态估计上的应用,从DeepPose开始,引入了多种创新方法如DeepPose、Efficient Object Localization、Convolutional Pose Machines等。这些方法通过级联、反馈机制、堆叠小时glass网络等策略提高准确性,其中HRNet以高分辨率特征贯穿始终,成为当时最优模型。
摘要由CSDN通过智能技术生成

2019年人体姿态估计指引
本文是介绍2D人体姿势估计的,作者先简单的介绍了下Human Pose Estimation,然后简要的说了下Human Pose Estimation的发展,之后,列出了在Human Pose Estimation发展过程中比较重要的一些算法,并对这些算法进行了解释。

Classical approaches:

  • 构建出一个可变的结构,这个结构由许多部分构成,每一部分间是灵活可变连接的,通过图片匹配出每一个部分在哪,并把这个部分的像素位置参数化,就可以对人体姿态估计进行建模了。
  • 这个方法一点也不依靠图片数据,研究的关键在于怎样增强模型的代表性。

Deep Learning based approaches:

目前,利用深度学习进行人体姿势估计的方法占了主流,并且通常采用的是CNN
重要论文:

  1. DeepPose
  2. Efficient Object Localization Using Convolutional Networks
  3. Convolutional Pose Machines
  4. Human Pose Estimation with Iterative Error Feedback
  5. Stacked Hourglass Networks for Human Pose Estimation
  6. Simple Baselines for Human Pose Estimation and Tracking
  7. Deep High-Resolution Representation Learning for Human Pose Estimation

DeepPose: Human Pose Estimation via Deep Neural Networks (CVPR’14)

DeepPose是第一个使用深度学习方法进行人体姿势估计的,它当时击败了当时的模型达到了SOTA,姿势估计被它规划成了一个人体关键节点的回归问题。并且该方法还采用了级联,精炼姿势估计得到更好的结果。另外,一个重要的事情是,这个方法整体的分析了姿势的原因,就是说,即使节点被隐藏了,如果姿势进行整体的推理,那么隐藏节点将会被估计出来。这篇论文声称, CNN很自然的提供了原因分类,并且展示了强大的结果。

Model

这个模型由一个AlexNet backend (7 layers)和一个额外的final layer构成。该模型使用了L2正则化。

  • 这篇论文把Deep Learing应用于了Human Pose Estimation上,打开了一个新的研究方向
  • 回归XY坐标的方法很难并且增加了复杂性,所以这个方法的表现一般
  • 近年来的STOA方法采用了heatmaps

1. 这篇论文作者的目标是什么,或者也许已经实现了什么。
2. 文中引入了一种新方法,那么这一新提出的方法的关键要素是什么?
3. 论文中,有哪些内容对你有用?
4. 你还想关注哪些参考资料/文献?

  1. 作者的目标是尽可能的提高Human Pose Estimation准确率,达到了当时的STOA
  2. 关键要素是非常快的把最新的CNN理论应用到了Human Pose Estimation领域
  3. 了解Human Pose Estimation的发展史
  4. next

Efficient Object Localization Using Convolutional Networks (CVPR’15)

这个方法通过通过运行一张图片不同分辨率大小来生成heatmaps,一张heatmap将会预测keypoints在每一个pixel上的可能性,这个方法的效果比直接回归效果好很多。

heatmaps是用了CNN。

Model

先用滑动窗口产生coarse heatmap output。

这篇论文的主要动机是恢复由初始模型池化所带来的空间精确度损失。他们通过附带的pose refinemet精炼了coarse heatmap的位置结果。他们和普通cascade不同的是coarse and fine models被一起连带着训练了。

总的来说,这个网络由一个生成coarse heatmaps的model和对每一个节点进行采样剪切的module构成,也附带了一个用来微调的convolutional model。

这个model的关键特征是使用了CNN和graphical model。The graphical model 学习了节点间典型的空间关系。

train

这个模型通过减小误差来训练。

Comments
  • Heatmaps比直接位置回归要好很多
  • 联合使用了CNN和Graphical Model

1. 这篇论文作者的目标是什么,或者也许已经实现了什么。
2. 文中引入了一种新方法,那么这一新提出的方法的关键要素是什么?
3. 论文中,有哪些内容对你有用?
4. 你还想关注哪些参考资料/文献?

  1. 提高Human Pose Estimation准确率,达到当时STOA
  2. 作者新应用了Graphical Model
  3. cascade和heatmap概念的理解
  4. next

Convolutional Pose Machines (CVPR’16)

Summary
  • A Pose Machine 由图片特征计算和紧跟着的预测模块构成。这个模型提供了按次序的预测框架,为了学到丰富的隐含空间位置信息,并且它对于人体姿势估计工作的非常好
  • 这篇论文主要动机是可以使用大范围的感受野来大范围的空间关系
Model

在这里插入图片描述
Stage 1 是计算模块,Stage 2 是预测模块。

一个 CPM 由两个以上的Stage组成,Stage的数量是一个超参数,通常等于3。

这篇论文采用了在每个Stage后进行监督,防止梯度消失。梯度消失在多阶段的深度学习中是一个通常的问题。

Result
  • MPII: 准确率比相似的算法都要高
  • LSP: 达到了STOA at 84.32%

1. 这篇论文作者的目标是什么,或者也许已经实现了什么。
2. 文中引入了一种新方法,那么这一新提出的方法的关键要素是什么?
3. 论文中,有哪些内容对你有用?
4. 你还想关注哪些参考资料/文献?

  1. 提高Human Pose Estimation 准确率,达到当时STOA。
  2. 论文中引入了多Stage方法,在计算完之后进行预测,并且在每个Stage后都进行监督。
  3. Stage方法的理解,扩大感受野可以帮助获得隐含的空间信息
  4. next

Human Pose Estimation with Iterative Error Feedback (CVPR’16)

Summary

预测目前的估计出了什么错然后纠正它,进行不断的迭代。他们使用了自我纠错模型,这个模型会通过 feed back 错误的预测,逐渐改变最初的解决方法,这个过程被称之为 Iterative Error Feedback(IEF)。

Model
  • 输入由 image I 和先前输出的 y t − 1 y_{t-1} yt1构成。记住,这是一个可迭代的过程,输出同样是被精炼的
  • 输入, x t = I ⊕ g ( y t − 1 ) x_{t}=I \oplus g(y_{t-1}) xt=Ig(yt1)这里的 I I I是图片, y t
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值