第二讲人体姿态估计与MMPose

最新推荐文章于 2024-03-28 09:32:41 发布

xcy04556

最新推荐文章于 2024-03-28 09:32:41 发布

阅读量253

点赞数

分类专栏： AI实战营文章标签：计算机视觉人工智能深度学习

本文链接：https://blog.csdn.net/weixin_39109575/article/details/130995570

版权

12 篇文章 0 订阅

订阅专栏

人体姿态估计介绍与应用

2D姿态估计：从给定的图像中识别人脸、手部、身体等2D关键点。
3D姿态估计：预测人体关键点在3D空间中的坐标，在3D空间中还原人体的姿态。
人体参数化模型：从图像或者视频中恢复出运动的3D人体模型。
下游任务：
- 行为识别：基于人体姿态识别行为动作。
- CG、动画：基于人体姿态和表情驱动虚拟人、数字人。
- 人机交互：如手势识别等应用。
- 动物行为分析

在图像上定位人体关键点（通常为人体主要关节）的坐标。

将关键点问题建模成一个回归问题，让模型直接回归关键点的坐标。

问题：深度模型直接回归坐标有困难，精度较差。
优势
1. 回归模型理论上可以达到无限精度，热力图方法的精度受限于特征图的空间分辨率。
2. 回归模型不需要维持高分辨率特征图，计算层面更高效，相比之下，热力图方法需要计算和存储高分辨率的热力图和特征图，计算成本更高。
劣势：图像到关键点坐标的映射高度非线性，导致回归坐标比回归热力图更难，回归方法的精度也弱于热力图方法，因此 DeepPose 提出之后的很长一段时间内，2D 关键点预测算法主要基于热力图。

预测关键点位于每个位置的概率。优点：比直接回归相对容易，模型精度相对更高。缺点：需要维持较高分辨率的特征图，计算资源消耗大。

步骤
1. 使用目标检测算法检测出每个人体。
2. 基于单人图像估计每个人的姿态。
优缺点
1. 整体精度受限于检测器的精度。
2. 速度和计算量会正比于人数。
基于回归的方法
1. DeepPose (2014)：AlexNet+回归头，级联多级。
2. RLE (2021)：对关键点的位置进行更准确的概率建模，从而提高位置预测的精度。
基于热图的方法
1. Hourglass (2016)：准确的姿态估计需要结合不同尺度的信息，级联。
2. Simple Baseline (2018) ：力求结构简单，使用ResNet配合反卷积形成编码器-解码器结构。
3. HRnet (2020)：在下采样时通过保留原分辨率分支来保持网络全过程特征图的高分辨率与空间位置信息并设计了独特的网络结构实现不同分辨率的多尺度特征融合。

步骤
1. 使用关键点模型检测出所有人体关键点。
2. 基于位置关系或者其它辅助信息将关键点组合成不同的人。
优缺点
1. 推理速度与人数无关。
方法
1. PAF&OpenPose (2016)：基于图像同时预测关节位置和四肢走向，利用肢体走向辅助关键点的聚类即，如果某两个关键点由某段肢体相连，则这两个关键点属于同一人。

一步实现人体的检测和姿态估计。

人体姿态估计和物体检测有一定相似性，都涉及对图像内容的定位。在DETR中query 通过注意力机制逐渐聚焦到特定物体上，姿态估计可模仿，DETR:让 query 逐渐聚焦到特定人体关键点上。

方法
1. PRTR (2021)：人体检测阶段:使用 DETR 检测出图中的不同的人；关键点检测阶段:同样使用 DETR 结构，不同的是query学习关键点信息，最终回归关键点位置。
2. TokenPose (2021)：将视觉 token 和关键点 token 一起送入 encoder 可以同时从图像中学习外观视觉表现和关键点间的约束关系。