第二讲 人体姿态估计与MMPose

人体姿态估计介绍与应用

  • 2D姿态估计:从给定的图像中识别人脸、手部、身体等2D关键点。
  • 3D姿态估计:预测人体关键点在3D空间中的坐标,在3D空间中还原人体的姿态。
  • 人体参数化模型:从图像或者视频中恢复出运动的3D人体模型。
  • 下游任务:
    • 行为识别:基于人体姿态识别行为动作。
    • CG、动画:基于人体姿态和表情驱动虚拟人、数字人。
    • 人机交互:如手势识别等应用。
    • 动物行为分析

2D姿态估计

在图像上定位人体关键点(通常为人体主要关节)的坐标。

基本思路

基于回归

将关键点问题建模成一个回归问题,让模型直接回归关键点的坐标。

  • 问题:深度模型直接回归坐标有困难,精度较差。
  • 优势
    1. 回归模型理论上可以达到无限精度,热力图方法的精度受限于特征图的空间分辨率。
    2. 回归模型不需要维持高分辨率特征图,计算层面更高效,相比之下,热力图方法需要计算和存储高分辨率的热力图和特征图,计算成本更高。
  • 劣势:图像到关键点坐标的映射高度非线性,导致回归坐标比回归热力图更难,回归方法的精度也弱于热力图方法,因此 DeepPose 提出之后的很长一段时间内,2D 关键点预测算法主要基于热力图。

基于热力图

预测关键点位于每个位置的概率。优点:比直接回归相对容易,模型精度相对更高。缺点:需要维持较高分辨率的特征图,计算资源消耗大。

范式

自顶向下(Top-down)

  • 步骤
    1. 使用目标检测算法检测出每个人体。
    2. 基于单人图像估计每个人的姿态。
  • 优缺点
    1. 整体精度受限于检测器的精度。
    2. 速度和计算量会正比于人数。
  • 基于回归的方法
    1. DeepPose (2014):AlexNet+回归头,级联多级。
    2. RLE (2021):对关键点的位置进行更准确的概率建模,从而提高位置预测的精度。
  • 基于热图的方法
    1. Hourglass (2016):准确的姿态估计需要结合不同尺度的信息,级联。
    2. Simple Baseline (2018) :力求结构简单,使用ResNet配合反卷积形成编码器-解码器结构。
    3. HRnet (2020):在下采样时通过保留原分辨率分支来保持网络全过程特征图的高分辨率与空间位置信息并设计了独特的网络结构实现不同分辨率的多尺度特征融合。

自底向上(Bottom-up)

  • 步骤
    1. 使用关键点模型检测出所有人体关键点。
    2. 基于位置关系或者其它辅助信息将关键点组合成不同的人。
  • 优缺点
    1. 推理速度与人数无关。
  • 方法
    1. PAF&OpenPose (2016):基于图像同时预测关节位置和四肢走向,利用肢体走向辅助关键点的聚类即,如果某两个关键点由某段肢体相连,则这两个关键点属于同一人。

单阶段方法

一步实现人体的检测和姿态估计。

  • 方法
    1. SPM (2019):偏移量回归。

基于Transformer的方法

人体姿态估计和物体检测有一定相似性,都涉及对图像内容的定位。在DETR中query 通过注意力机制逐渐聚焦到特定物体上,姿态估计可模仿,DETR:让 query 逐渐聚焦到特定人体关键点上。

  • 方法
    1. PRTR (2021):人体检测阶段:使用 DETR 检测出图中的不同的人;关键点检测阶段:同样使用 DETR 结构,不同的是query学习关键点信息,最终回归关键点位置。
    2. TokenPose (2021):将视觉 token 和 关键点 token 一起送入 encoder 可以同时从图像中学习外观视觉表现和关键点间的约束关系。

总结

在这里插入图片描述

3D姿态估计

通过给定的图像预测人体关键点在三维空间中的坐标,可以在三维空间中还原人体的姿态。

方法

  1. Coarse-to-Fine Volumetric Prediction (2017):单张图像输入卷积网络,预测 3D 热力图。
  2. Simple Baseline 3D (2017):直接用2D坐标预测3D坐标就可以取得比较好的效果,不需要借助图像。
  3. VideoPose3D (2018):基于单帧图像预测2D 关键点,再基于多 2D 关键点结果预测3D 关键点位置。
  4. VoxelPose (2020):输入多视角图像。

评价指标

  1. Percentage of Correct Parts (PCP):以肢体的检出率作为评价指标
  2. Percentage of Detected Joints (PDJ):以关节点的位置精度作为评价指标
  3. Percentage of Correct Key-points (PCK):PCK以关键点的检测精度作为评价指标
  4. Object Keypoint Similarity (OKS):MS COCO指定的评价指标
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值