三维人体姿态估计年度进展综述（周晓巍教授）

最新推荐文章于 2025-03-02 19:25:28 发布

Highlight_Jin

最新推荐文章于 2025-03-02 19:25:28 发布

阅读量5.5k

点赞数 2

分类专栏： # 姿态估计

本文链接：https://blog.csdn.net/Highlight_Jin/article/details/114761071

版权

姿态估计专栏收录该内容

1 篇文章

订阅专栏

主要内容

一. 定义
二. 目前常用的三维姿态的表示方式（两种）
三. 基本解法
四. 研究倾向

人体姿态估计：是指还原给定图片或视频中人体关键点位置的过程。一般来说，会先检测、定位画面中的人体，再对人体进行关键点分析。通常人们会选择18个关键点，对应着人体最主要的关节和部位。
如果人的一部分被遮挡或者画面中有太多的人，甚至在运动中互相进行了遮挡，机器还能识别吗？引入人体结构化信息是个不错的选择，人类的骨骼有一定的限度，如果关键点之间的距离过远，就要考虑是否有另一个人或是识别错误。
如果输入的是视频数据，我们还可以利用相邻帧间人体姿态的连续性改进姿态识别结果。
可以应用在安防领域判断画面中的人是否有过激行为，及时报警；应用在新零售判断人们的购买等行为；应用于步态分析评估运动员的运动状况、提升成绩或是干脆作为生物识别标识，定位追踪空间中的个人；动作捕捉，如跳舞类的游戏或者作为人机交互手段，隔空控制家电设备。

一. 定义

输入一张RGB图像，希望恢复图像中人的三维姿态。

二. 目前常用的三维姿态的表示方式（两种）

1.三维关键点，连成三维骨架，进行可视化，估计关键点在空间中的位置；
2.参数化的人体几何模型，常用的SMPL模型，通常由一组姿态控制它的形变，需要估计姿态的参数，估计外形的参数。
在这里插入图片描述

三. 基本解法

Optimization 优化通过变化三维人体时的参数，使模型在图像平面里的投影跟图像的特征对齐，比如二维的关键点的轮廓。局限：需要一个比较好的初始化，优化的过程也比较慢，比较容易陷入局部最优。
Regression using a neural net
基于深度学习，从输入的图像回归姿态的参数，比较快，利用端到端的学习。

以上两种解法也可以结合在一起，利用网络预测出一个比较好的初始化，进一步利用图像的特征对姿态进行优化。

四. 研究倾向

在这里插入图片描述

4.1 Weak supervision(弱监督学习)

很难标注图像中的3D姿态。
在这里插入图片描述
1.利用2D的信息做监督，model fitting in the loop

2.利用unpaired data

3.利用多视图
在这里插入图片描述

4.2 From image to video(视频中的姿态估计)

1.特征提取的时候考虑帧的信息，用lstm
2.将3D姿态的判别器扩展到3D运动的判别器
在这里插入图片描述

4.3 Total capture of detailed motion(对全身的精细的运动捕捉)

在这里插入图片描述

4.4 Multiple people(多人的3D姿态估计)

在这里插入图片描述
解决该问题的思路：
1.Top-down framework：先在图像检测人，针对每一个人去估计根点的位置，以及相对于根节点的3D的pose。单人姿态估计上加了对于每个人的位置估计。
2. Bottom-up framework
先用网络去回归出一些中间的表示，2D 的关键点，以及根节点的深度图，再组合多人的3D骨架。
在这里插入图片描述