![515fff8a92dc292a9a764af82231f4ab.png](https://img-blog.csdnimg.cn/img_convert/515fff8a92dc292a9a764af82231f4ab.png)
大数据文摘出品
来源:blog.nanonets
作者:栾红叶、熊琰、周家乐、钱天培
从DeepNet到HRNet,这有一份深度学习“人体姿势估计”全指南
几十年来,人体姿态估计(Human Pose estimation)在计算机视觉界备受关注。它是理解图像和视频中人物行为的关键一步。
在近年深度学习兴起后,人体姿态估计领域也发生了翻天覆地的变化。
今天,文摘菌就从深度学习+二维人体姿态估计的开山之作DeepPose开始讲起,为大家盘点近几年这一领域的最重要的论文。
什么是人体姿势估计?
人体姿态估计(Human Pose Estimation,以下简称为HPE)被定义为图像或视频中,人体关节(也被称为关键点-肘部、手腕等)的定位问题。它也被定义为,在所有关节姿势组成的空间中搜索特定姿势。
![29a8d5a0c7f1b171fb2ed20cfffd0d64.png](https://img-blog.csdnimg.cn/img_convert/29a8d5a0c7f1b171fb2ed20cfffd0d64.png)
二维姿态估计-运用二维坐标(x,y)来估计RGB图像中的每个关节的二维姿态。
![4e66e500f832d8d00baa6dd114d16760.png](https://img-blog.csdnimg.cn/img_convert/4e66e500f832d8d00baa6dd114d16760.png)
三维姿态估计-运用三维坐标(x,y,z)来估计RGB图像中的三维姿态。
HPE有一些非常酷的应用,在动作识别(action recognition)、动画(animation)、游戏(gaming)等领域都有着广泛的应用。例如,一个非常火的深度学习APP —— HomeCourt,可以使用姿态估计(Pose Estimation)来分析篮球运动员的动作。
![1a1affe45c78b5fe51771e9bf18af9d4.png](https://img-blog.csdnimg.cn/img_convert/1a1affe45c78b5fe51771e9bf18af9d4.png)
为什么人体姿势估计这么难?
灵活、小而几乎看不见的关节、遮挡、衣服和光线变化都为人体姿态估计增加了难度。
![1c63598c1e7c1a7ba1afa40bd9c3c2b6.png](https://img-blog.csdnimg.cn/img_convert/1c63598c1e7c1a7ba1afa40bd9c3c2b6.png)
二维人体姿态估计的不同方法
传统方法
关节姿态估计的传统方法是使用图形结构框架。这里的基本思想是,将目标对象表示成一堆“部件(parts)”的集合,而部件的组合方式是可以发生形变的(非死板的)。
一个部件表示目标对象某部分图形的模板。“弹簧”显示部件之间的连接方式,当部件通过像素位置和方向进行参数化后,其所得到的结构可以对与姿态估计非常相关的关节进行建模。(结构化预测任务)
![48c829731b19660586afb3b634bee9cc.png](https://img-blog.csdnimg.cn/img_convert/48c829731b19660586afb3b634bee9cc.png)
然而,上述方法的局限性在于,姿势模型并非构建在图像数据之上。因此,研究者把大部分精力都放在了构建更具表现力的模型上了。
可形变部件模型(Deformable part models)- Yang和Ramanan使用表示复杂关节关系的部件混合模型。可形变部件模型是一个模板集合,这些模板的组合方式是可发生形变的,每个模型都有全局模板+部件模板。这些模板与图像相匹配用以以识别/检测对象,这种基于部件的模型可以很好地模拟关节。然而,这是以有限的表现力为代价实现的,并没有用到全局信息。
基于深度学习的方法
传统姿态估计方法有其难以克服的局限性,但这一局面因为CNN的出现而被打破。随着Toshev等人对“DeepPose”的引入,人体姿态估计的研究开始从传统方法转向深度学习。
近年来,大多数姿态估计系统(pose estimation systems)都普遍采用ConvNets作为其主构模块,这在很大程度上取代了手工制作的特征和图形模板;这种方法相比传统方法取得了巨大提升。
在下一节中,我将按时间顺序总结几篇论文,这些论文代表了HPE的演进,从google的DeepPose开始(这不是一个详尽的列表,而是一个个人认为能够显示该领域最近进展和会议重要成果的论文合集)。
论文涵盖
1. DeepPose
2. 使用卷积网络的高效目标定位(Efficient Object Localization Using Convolutional Networks)
3. 卷积姿态机(Convolutional Pose Machines)
4. 基于误差反馈的人体姿态估计(Human Pose Estimation with Iterative Error Feedback)
5. 用于人体姿态估计的堆叠式沙漏网络(Stacked Hourg