本文素材来源于nanonets技术博客网站,经本人编辑首发于CSDN,仅供技术分享所用,不作商用。
原文地址:https://blog.nanonets.com/human-pose-estimation-2d-guide/
人体姿势估计是过去几十年来一直受到计算机视觉社区关注的重要问题。这是了解图像和视频中人物的关键步骤。在这篇文章中,我写了人体姿势估计(2D)的基础知识,并回顾了有关该主题的文献。这篇文章还将作为人体姿势估计的教程,可以帮助您学习基础知识。
什么是人体姿势估计?
人体姿势估计被定义为图像或视频中人体关节(也称为关键点 - 肘部,手腕等)的定位问题。它还被定义为在所有关节姿势的空间中搜索特定姿势。
2D姿势估计 - 从RGB图像估计每个关节的2D姿势(x,y)坐标。
3D姿势估计 - 从RGB图像估计3D姿势(x,y,z)坐标。
人体姿势估计有一些非常酷的应用程序,并且大量用于动作识别,动画,游戏等。例如,一个非常流行的深度学习应用程序HomeCourt使用姿势估计来分析篮球运动员的动作。
为什么这么难?
强大的关节,小而几乎不可见的关节,遮挡,衣服和灯光变化使这成为一个难题。
我将在这篇文章中介绍2D人体姿势估计。
二维人体姿态估计的不同方法
经典方法
- 关于姿势估计的经典方法是使用图形结构框架。这里的基本思想是通过以可变形配置(非刚性)排列的“部件”集合来表示对象。“part”是在图像中匹配的外观模板。弹簧显示零件之间的空间连接。 当通过像素位置和方向对部件进行参数化时,所得到的结构可以模拟与姿势估计非常相关的关节。(结构化预测任务)
- 然而,上述方法具有不依赖于图像数据的姿势模型的限制。因此,研究的重点是丰富模型的代表性能力。
- 可变形零件模型 - Yang和Ramanan使用表达复杂关节关系的零件混合模型。可变形零件模型是以可变形配置排列的模板集合,每个模型都具有全局模板+零件模板。这些模板在图像中匹配以识别/检测对象。基于部件的模型可以很好地模拟关节。然而,这是以有限表现力为代价实现的,并未考虑全局背景。
基于深度学习的方法
经典流水线有其局限性,CNN已经大大改变了姿态估计。随着Toshev等人引入“ DeepPose ”,人类姿势估计的研究开始从经典方法转向深度学习。大多数最近的姿势估计系统都普遍采用ConvNets作为它们的主要构建块,大大取代了手工制作的特征和图形模型; 这一战略在标准基准方面取得了重大进展。
在下一节中,我将按时间顺序总结一些论文,这些论文代表人类姿势估计的演变,从Google的DeepPose开始(这不是一个详尽的列表,但是我认为最佳进展/最多的论文列表每次会议都很重要)。
论文涵盖
1. DeepPose
3. 卷积姿势机器