3D人体姿态估计综述 - 《3D Human pose estimation: A review of the literature and analysis of covariates》

本文链接：https://blog.csdn.net/qq_41614538/article/details/108643500

《3D Human pose estimation: A review of the literature and analysis of covariates》
CVIU 2016 论文链接
这篇文章主要介绍了基于RGB图片进行3D人体姿态估计的方法，包括了基于单张图片、视频序列、多视角图片的。

之前写过一篇2D人体姿态估计综述笔记，2D姿态估计通过深度学习已经能达到较好的效果，但3D姿态估计更多的采用传统算法，涉及较多数学知识，笔者目前对本文具体算法的介绍部分只能略读。需要注意的是，这篇综述是16年的，至今可能也出了一些新的paper基于深度学习做3D姿态估计，有待进一步调研。

1 基本框架及方法分类

在这里插入图片描述
上图是3D人体姿态估计的通用框架，一个具体的方法可能包含部分或全部步骤。

在这里插入图片描述
方法分类如上图所示，大致可分为生成型、判别型和混合型。

Generative model (model-based)
- top-down approaches：用先验信息构造一个姿态模型再拟合它，主要有以下两步 1) modeling：根据先验信息（人体结构、相机模型、图片描述符等）构建一个likelihood function 2) estimation：基于对图片的观察和likelihood function，预测出最可能的人体姿态
- part-based (bottom-up)：把人体看作是由关节点连接起来的一系列身体部件。代表模型有Pictorial Structure Model (PSM) / Deformable Structures Model / Stitched Puppet (SP)
Discriminative approaches (model-free)
- learning-based：学习一种从图片空间到3D人体姿态空间的映射
- example-based：将样例图片及其对应姿态存储下来，测试输出的姿态是相似样例姿态的插值
Hybrid model：融合了生成模型和判别模型。用生成模型得到的likelihood来验证判别模型提出的姿态假设。

笔者个人理解生成模型是拟合constraints，判别模型是提出hypotheses。

生成模型能够更精确地估计姿态，因为其泛化能力好，能够处理复杂的人体情况如衣服和饰品。

判别模型的鲁棒性好、速度快，因为这种模型在更低维度上进行预测，其根本原因是实际可行的人体姿态空间小于解剖学上的可能空间。

在这里插入图片描述

最常用：人体骨架模型(上图左)。

Contraints

特征提取

这个问题非常困难：

深度学习：缺乏足够多的训练数据，16年提出使用合成图片。e.g.
- ConvNets 在目标检测任务上预训练，在姿态回归任务上微调（2014）
- 输入一张图片和一个3D姿态，输出两者的相似度分数，joint embedding（2015）
2d detector for 3D pose estimation：训练一个2D姿态检测器，测试时通过最小化投影误差来得到最可能的3D姿态
相机参数估计 / 判别式方法 / 基于样本的方法 ~~笔者没有仔细看，但大部分用到了概率分布模型、贝叶斯等知识~~