人体姿态估计MMPose

最新推荐文章于 2025-04-03 14:16:20 发布

travel?

最新推荐文章于 2025-04-03 14:16:20 发布

阅读量215

点赞数

文章标签：人工智能深度学习目标检测

本文链接：https://blog.csdn.net/travel_66/article/details/131012064

版权

今天的课程还是理论课，主要介绍MMPose，人体姿态估计，对于小白来说理解这一部分还是相对困难的，整体听下课程来，很多地方都没有理解，涉及到的很多内容没有听过，会有些吃力，简单提取了一些相关的内容，记录下来之后再看看，明天实战一下应该会理解更深刻。

给出一个特定的图像，例如人脸、手部、身体等，识别出其关键点，可以用坐标的方式表现出来，这是二维层面的，当然也可以三位层面。例如一段滑冰视频、跳操视频、踢球时、拥抱时，预测人体关键点在三维空间中的坐标，在三维空间中还原人的姿态。当然动物的姿态也可以。

即给出一张图片，定位关键点坐标。这里有一些方法，主要介绍到四种方法，即自顶向下方法，自底向上方法，单阶段方法，基于Transformer的方法。

自顶向下方法
即使用目标检测算法检测出单个人体，基于单个人体估计姿态，速度和计算量正比于人数。
这里有介绍到基于回归和基于热力图。
- 基于回归
  DeepPose——深度网络+线性回归
  RLE——使用标准化流估计关键点位置的概率分布
- 基于热力图
  CPM——关键点-热力图转换
  Hourglass——结合不同尺度的信息进行预测
  Simple Baseline——简单好用的模型
  HRNet——特征图高分辨率+空间信息+多尺度融合
自底向上方法
那么当两个人拥抱或者有重合部分怎么办呢？自底向上方法解决了这个问题。即使用关键点检测出所有人体关键点，基于位置关系或其他辅助信息将关键点组合成不同的人。优点是推理速度与人数无关。
- PAF-OpenPose
  预测骨骼位置作为关键点亲和度的衡量
单阶段方法
SPM首次提出了人体姿态估计的单阶段解决方案，在取得速度优势的同时，也取得了不逊色于二阶段方法的检测率，并且该方法可以直接从2D图像扩展到3D图像的人体姿态估计。
- SPM
  层次型结构化姿态表示
基于Transformer的方法
在DETR中query通过注意力机制逐渐聚焦到特定物体上。
姿态估计可模仿DETR，让query逐渐聚焦到特定人体关键点上。
- PRTR / TokenPose
  基于对DETR对关键点的query