人体姿态估计MMPose
今天的课程还是理论课,主要介绍MMPose,人体姿态估计,对于小白来说理解这一部分还是相对困难的,整体听下课程来,很多地方都没有理解,涉及到的很多内容没有听过,会有些吃力,简单提取了一些相关的内容,记录下来之后再看看,明天实战一下应该会理解更深刻。
概述
给出一个特定的图像,例如人脸、手部、身体等,识别出其关键点,可以用坐标的方式表现出来,这是二维层面的,当然也可以三位层面。例如一段滑冰视频、跳操视频、踢球时、拥抱时,预测人体关键点在三维空间中的坐标,在三维空间中还原人的姿态。当然动物的姿态也可以。
2D姿态估计
即给出一张图片,定位关键点坐标。这里有一些方法,主要介绍到四种方法,即自顶向下方法,自底向上方法,单阶段方法,基于Transformer的方法。
- 自顶向下方法
即使用目标检测算法检测出单个人体,基于单个人体估计姿态,速度和计算量正比于人数。
这里有介绍到基于回归和基于热力图。- 基于回归
DeepPose——深度网络+线性回归
RLE——使用标准化流估计关键点位置的概率分布 - 基于热力图
CPM——关键点-热力图转换
Hourglass——结合不同尺度的信息进行预测
Simple Baseline——简单好用的模型
HRNet——特征图高分辨率+空间信息+多尺度融合
- 基于回归
- 自底向上方法
那么当两个人拥抱或者有重合部分怎么办呢?自底向上方法解决了这个问题。即使用关键点检测出所有人体关键点,基于位置关系或其他辅助信息将关键点组合成不同的人。优点是推理速度与人数无关。- PAF-OpenPose
预测骨骼位置作为关键点亲和度的衡量
- PAF-OpenPose
- 单阶段方法
SPM首次提出了人体姿态估计的单阶段解决方案,在取得速度优势的同时,也取得了不逊色于二阶段方法的检测率,并且该方法可以直接从2D图像扩展到3D图像的人体姿态估计。- SPM
层次型结构化姿态表示
- SPM
- 基于Transformer的方法
在DETR中query通过注意力机制逐渐聚焦到特定物体上。
姿态估计可模仿DETR,让query逐渐聚焦到特定人体关键点上。- PRTR / TokenPose
基于对DETR对关键点的query
- PRTR / TokenPose
3D人体姿态估计
通过给定的图像预测人体关键点在三维空间中的坐标,在三维空间中还原人体的姿态。三维空间坐标是相对的。
还有一个有趣的发现:直接用2D坐标预测3D坐标就可以取得比较好的效果,不需要借助图像。
- 直接预测
- Coarse-to-Fine
- Simple Baseline 3D
- 利用视频信息
- VideoPose3D
基于单帧图像预测2D关键点,再基于多帧2D关键点结果预测3D关键点位置。
- VideoPose3D
- 利用多角度图像
- VoxelPose
评估指标
- PCP以肢体检出率作为评价指标
PCP= 整个数据集中正确检出的此部位数 整个数据集中此部位总数 \frac {整个数据集中正确检出的此部位数}{整个数据集中此部位总数} 整个数据集中此部位总数整个数据集中正确检出的此部位数 - PDJ以关节点的位置精度作为评价指标
- PCK以关键点的检测精度作为评价指标
- OKS based mAP以关键点相似度(OKS)作为评价指标计算mAP。
DensePose
将人体表面分为24个部分,并将每个部分参数化至同样大小的UV平面。
基本结构:
Mask-RCNN+DenseReg=DensePose-RCNN
人体参数化模型
- SMPL
- SMPLify
- HMR
以上就是今天的大概内容咯,明天是实战课了,自己动手会更加帮助我理解内容,加油!