原文连接:https://arxiv.org/abs/2006.01423
文章总结了从2014年起至今的单目人体姿态估计基于深度学习的主流方法,文章主要框架如下:
- 介绍
- 人体姿态识别方法分类和人体模型
- 2D人体姿态估计
- 3D人体姿态估计
- 人体姿态识别常用数据集及评价标准
- 总结及未来研究方向
下面就以翻译原文为主要方式介绍文章的主要内容:
1.介绍
顾名思义,人体姿态识别任务主要是将从传感器中获取的信息中识别到人体姿态。近些年来,随着深度学习在诸多视觉任务(图片分类,目标检测,语义分割等等)表现良好的同时,人体姿态估计领域也取得飞速的进展。发展主要集中于以下几个方面:估计能力越来越强的神经网络结构,丰富的数据集,更多的人体模型探索。本文广泛地回顾了近些年基于深度学习的2D,3D人体姿态估计方法。本文主要针对图像的传感器信息。
人体姿态识别有许多的应用领域,包括虚拟现实,人机交互等等。单目人体姿态估计也有许许多多的挑战。例如自我遮挡,过于复杂的人体姿态,同一图片里面不同人的服装相似,同一人的肢体相似,有的图片仅出现一半人体。
关于人体姿态估计的的论文可以以下面的方式区分:
- 是否使用人体模型:基于模型的产生式方法(generative method),和不基于模型的识别方法(discriminative method)
- 分析的层面:自上而下的方法(先识别人体再拆解肢体),自下而上的方法(先识别肢体再组成人体)
- 更多的区分方法参见下面的表格 1
表格2介绍了近些年关于人体姿态识别其他方面的综述,想进一步了解人体姿态识别的可以进一步参考来看。
2.人体姿态识别分类方法与人体模型
2.1 人体姿态识别的分类
这一部分进一步详细人体姿态识别方法的分类:
- 产生式方法与识别方法
基于不同的人体姿态模型,产生式方法可以以不同的方式被处理:例如基于人体姿态模型的先验,基于不同视图从二维空间到三维空间的投影,基于回归方法的高维数据空间的优化。
而识别方法是直接学习一个从从输入到人体姿态空间的投影。
- 自上而下和自下而上方法
自上而上方法会因为图片中人的数量增多而增加时间消耗,而自下而上方法会因为人体重叠而出现分解的肢体“难以组装”的现象。
- 基于回归的和基于检测的方法
基于不同的问题表达方式,基于深度学习的人体姿态估计可以划分为基于回归的和基于检测的方法。基于回归的方法直接从输入映射出人体连接的坐标和人体姿态模型的参数,基于检测的方法,将人体视为检测的目标,基于两种表达:图像块和关节热图。回归方法是一个高级的非线性问题,比较难。而基于小图像块的检测方法则鲁棒性较好,但是限制了检测的坐标精度。
- 一段或多段方法
端到端的神经网络比较干净,但是缺少了中间的监督,效果可能会不好。我们可以将人体姿态识别问题拆解成多个小问题进行训练,参见自上而下和自下而上方法。
2.2 人体模型
常见有三种人体模型:
- 基于人体骨架的模型
可以理解为数据结构中的图,顶点代表关节,边代表关节连接,缺点是缺少人体模型的宽度和形状信息;
- 基于形状的模型
和上一种模型比较就是增添了形状信息,论文只给出了96年和95年的两篇论文,应该不太常用。
- 基于体积的模型
主要描述三维的人体形状和姿态。
3.2D人体姿态估计
在深度学习兴起之前,大家手动设计特征提取器,设计复杂的人体模型去提取人体骨架,应用神经网络之后,这一领域取得飞速进展。论文主要分为基于回归和检测的方法,对近些年的论文进行整理。
4.3D人体姿态估计
主要预测三维空间的人体姿态位置,论文从单目视觉展开调研。
4.1 单人估计
4.1.1 基于模型的
4.1.2 非基于模型的
4.2 多人估计
5. 数据集及评价标准
这部分整理了人体姿态识别领域常见的数据集,可以参考论文进一步理解使用,方便以后做研究。