声明:本文原文来源于medium博客,经本人翻译首发于CSDN,仅供技术交流所用。
原文:https://medium.com/beyondminds/an-overview-of-human-pose-estimation-with-deep-learning-d49eb656739b
基于深度学习的人体姿态估计技术介绍
作者: Bharath Raj
人体姿态骨架以图形格式表示人的活动。本质上,它是一组坐标,将坐标组合起来就可以描述人的姿态。骨架中的每个坐标都称为关键点(或关节)。两个关键点之间的有效连接称为肢体。请注意,并非所有关键点组合起来都会产生有效的配对(肢体)。人体姿势骨架示例如下所示。左图为:人体姿态骨架的COCO关键点格式。右图为渲染后的人体姿态骨架。
了解到一个人的姿态能够为几种真实的应用场景提供了便利之门,其中一些应用场景将在本博客最后讨论。经过多年的研究,这个领域已经引入了几种人体姿势估计的方法。其中,最早(也是最慢)的方法的典型特点是估计图像中仅有一个人的单个人活动的姿态。这些方法通常是首先识别人体的各个部位,接下来再在它们之间形成连接以创建姿态。
当然,这些方法在一些包含多个人的现实场景的图像中并不是特别有用。
多人姿态估计
由于图像中人的位置和人数未知,因此多人体姿态估计比单人体姿态估计更难。通常,我们可以使用以下两种方法之一解决上述问题:
- 最简单的方法是首先合并人物检测器,然后估计每个部位,最后计算每个人的姿态。这种方法称为自上而下的方法。如下图中的上半示意图所示。
- 另一种方法是检测图像中的所有部位(即每个人的部分),然后关联/分组属于不同人的部分。这种方法称为自下而上的方法。如下图中的下半示意图所示。