2019年人体姿态估计指引
本文是介绍2D人体姿势估计的,作者先简单的介绍了下Human Pose Estimation,然后简要的说了下Human Pose Estimation的发展,之后,列出了在Human Pose Estimation发展过程中比较重要的一些算法,并对这些算法进行了解释。
Classical approaches:
- 构建出一个可变的结构,这个结构由许多部分构成,每一部分间是灵活可变连接的,通过图片匹配出每一个部分在哪,并把这个部分的像素位置参数化,就可以对人体姿态估计进行建模了。
- 这个方法一点也不依靠图片数据,研究的关键在于怎样增强模型的代表性。
Deep Learning based approaches:
目前,利用深度学习进行人体姿势估计的方法占了主流,并且通常采用的是CNN
重要论文:
- DeepPose
- Efficient Object Localization Using Convolutional Networks
- Convolutional Pose Machines
- Human Pose Estimation with Iterative Error Feedback
- Stacked Hourglass Networks for Human Pose Estimation
- Simple Baselines for Human Pose Estimation and Tracking
- Deep High-Resolution Representation Learning for Human Pose Estimation
DeepPose: Human Pose Estimation via Deep Neural Networks (CVPR’14)
DeepPose是第一个使用深度学习方法进行人体姿势估计的,它当时击败了当时的模型达到了SOTA,姿势估计被它规划成了一个人体关键节点的回归问题。并且该方法还采用了级联,精炼姿势估计得到更好的结果。另外,一个重要的事情是,这个方法整体的分析了姿势的原因,就是说,即使节点被隐藏了,如果姿势进行整体的推理,那么隐藏节点将会被估计出来。这篇论文声称, CNN很自然的提供了原因分类,并且展示了强大的结果。
Model
这个模型由一个AlexNet backend (7 layers)和一个额外的final layer构成。该模型使用了L2正则化。
- 这篇论文把Deep Learing应用于了Human Pose Estimation上,打开了一个新的研究方向
- 回归XY坐标的方法很难并且增加了复杂性,所以这个方法的表现一般
- 近年来的STOA方法采用了heatmaps
1. 这篇论文作者的目标是什么,或者也许已经实现了什么。
2. 文中引入了一种新方法,那么这一新提出的方法的关键要素是什么?
3. 论文中,有哪些内容对你有用?
4. 你还想关注哪些参考资料/文献?
- 作者的目标是尽可能的提高Human Pose Estimation准确率,达到了当时的STOA
- 关键要素是非常快的把最新的CNN理论应用到了Human Pose Estimation领域
- 了解Human Pose Estimation的发展史
- next
Efficient Object Localization Using Convolutional Networks (CVPR’15)
这个方法通过通过运行一张图片不同分辨率大小来生成heatmaps,一张heatmap将会预测keypoints在每一个pixel上的可能性,这个方法的效果比直接回归效果好很多。
heatmaps是用了CNN。
Model
先用滑动窗口产生coarse heatmap output。
这篇论文的主要动机是恢复由初始模型池化所带来的空间精确度损失。他们通过附带的pose refinemet精炼了coarse heatmap的位置结果。他们和普通cascade不同的是coarse and fine models被一起连带着训练了。
总的来说,这个网络由一个生成coarse heatmaps的model和对每一个节点进行采样剪切的module构成,也附带了一个用来微调的convolutional model。
这个model的关键特征是使用了CNN和graphical model。The graphical model 学习了节点间典型的空间关系。
train
这个模型通过减小误差来训练。
Comments
- Heatmaps比直接位置回归要好很多
- 联合使用了CNN和Graphical Model
1. 这篇论文作者的目标是什么,或者也许已经实现了什么。
2. 文中引入了一种新方法,那么这一新提出的方法的关键要素是什么?
3. 论文中,有哪些内容对你有用?
4. 你还想关注哪些参考资料/文献?
- 提高Human Pose Estimation准确率,达到当时STOA
- 作者新应用了Graphical Model
- cascade和heatmap概念的理解
- next
Convolutional Pose Machines (CVPR’16)
Summary
- A Pose Machine 由图片特征计算和紧跟着的预测模块构成。这个模型提供了按次序的预测框架,为了学到丰富的隐含空间位置信息,并且它对于人体姿势估计工作的非常好
- 这篇论文主要动机是可以使用大范围的感受野来大范围的空间关系
Model
Stage 1 是计算模块,Stage 2 是预测模块。
一个 CPM 由两个以上的Stage组成,Stage的数量是一个超参数,通常等于3。
这篇论文采用了在每个Stage后进行监督,防止梯度消失。梯度消失在多阶段的深度学习中是一个通常的问题。
Result
- MPII: 准确率比相似的算法都要高
- LSP: 达到了STOA at 84.32%
1. 这篇论文作者的目标是什么,或者也许已经实现了什么。
2. 文中引入了一种新方法,那么这一新提出的方法的关键要素是什么?
3. 论文中,有哪些内容对你有用?
4. 你还想关注哪些参考资料/文献?
- 提高Human Pose Estimation 准确率,达到当时STOA。
- 论文中引入了多Stage方法,在计算完之后进行预测,并且在每个Stage后都进行监督。
- Stage方法的理解,扩大感受野可以帮助获得隐含的空间信息
- next
Human Pose Estimation with Iterative Error Feedback (CVPR’16)
Summary
预测目前的估计出了什么错然后纠正它,进行不断的迭代。他们使用了自我纠错模型,这个模型会通过 feed back 错误的预测,逐渐改变最初的解决方法,这个过程被称之为 Iterative Error Feedback(IEF)。
Model
- 输入由 image I 和先前输出的 y t − 1 y_{t-1} yt−1构成。记住,这是一个可迭代的过程,输出同样是被精炼的
- 输入, x t = I ⊕ g ( y t − 1 ) x_{t}=I \oplus g(y_{t-1}) xt=I⊕g(yt−1)这里的 I I I是图片, y t