3D人体姿态估计(介绍及论文归纳)

本文介绍了3D人体姿态估计的基本概念、难点和应用,包括2D和3D姿态估计的任务、挑战与数据集。文章指出,3D姿态估计面临小关节识别、遮挡、视角变化等问题,并探讨了数据集的局限性。此外,文章还讨论了从2D到3D姿态估计的转换、常用的网络结构和方法,以及当前研究的焦点和未来发展方向。
摘要由CSDN通过智能技术生成

基本概念

  • 算法改进思路:
    • 网络设计
    • 特征流
    • 损失函数
    • 把问题黑箱化或者半黑箱化,然后从神经网络结构设计、数据处理、增强以及其他机器学习数学方法去暴力式的解决。
    • PersonLab和PifPaf引入复合场(Composite Field)的概念,预测人为设计好的高维度向量来处理人体姿态预测问题,让模型预测更加巧妙的监督信息, 并且能降低量化误差,设计保持期望的一致性的关联肢体得分公式,再加之快速贪心算法,利用人体的连通特性就能得到多人姿态
    • 提出无监督的方式处理人体部件
  • 数据集:目前,3D姿态估计的主要瓶颈是缺少大型的室外数据集,并缺少一些特殊姿态的数据集(如摔倒, 打滚等)。这主要由于3D姿态数据集是依靠适合室内环境的动作捕捉(MOCAP)系统构建的,而MOCAP系统需要带有多个传感器和紧身衣裤的复杂装置,在室外环境使用是不切实际的。因此数据集大多是在实验室环境下建立的,模型的泛化能力也比较差。
  • 集成新一代AutoML技术,降低算法试错成本
  • 人体姿态估计(Human Pose Estimation):指图像或视频中人体关节的定位问题。即,在所有关节姿势的空间中搜索特定姿势。
  • 2D姿态估计(2D Pose Estimation):从RGB图像估计每个关节的2D Pose (x, y) 坐标。
  • 3D姿态估计(3D Pose Estimation):从RGB D图像中估计每个关节的3D Pose (x, y, z) 坐标。
  • Human Pose Estimation 又被称为 Human Keypoint Detection
  • 人体位姿:
    • 位姿中的每一个坐标点被称为一个“部分 (part) ”或关节 (joint) 或关键点 (keypoint)
    • 两个部分之间的有效连接被称为一个“对 (pair) ”或肢体
    • 不是所有的关节之间的两两连接都能组成有效的pair(肢体)
  • 基于判别的方法:把姿态估计当做一个回归问题

姿态估计难点

  • 小且几乎看不到的关节
  • 部分遮挡 (partial occlusion)
  • 不同视角 (view-point)
  • 衣服颜色 (black is bad) 及材质
  • 光照变化 (lighting change)
  • 背景杂乱 (background clutter)

人体结构化特性

  • 身体部位比例
  • 左右对称性
  • 互穿性约束
  • 关节界限(例如肘部不能向后弯曲)
  • 身体的连通性(例如手腕与肘部刚性相关)

2D 姿态估计

任务

  • 单人姿态估计
    • Benchmark: MPII (2014)
    • 代表作: CPM (CVPR 2016), Hourglass (ECCV 2016)
  • 多人姿态估计
    • Benchmark: COCO (2016), CrowdPose (2018)
    • 自下而上: OpenPose (CVPR 2017), Associative Embedding (NIPS 2017)
    • 自上而下: CPN (CVPR 2018), MSPN (Arxiv 2018), HRNet (CVPR 2019)
  • 人体姿态跟踪
    • Benchmark: PoseTrack (2017)
    • 代表作: Simple Baselines (ECCV 2018)

挑战

  • 遮挡
  • 复杂背景
  • 特殊姿态
    在这里插入图片描述

3D 姿态估计

问题

从图片或视频中估计出关节点的三维坐标 (x, y, z) (回归问题)

  • 输入:包含人体的图片
  • 输出:N*3个人体关节点

挑战

  • 巨大的3D姿态空间、自遮挡
  • 单视角2D到3D的映射中固有的深度模糊性、不适定性(一个2D骨架可以对应多个3D骨架)
  • 缺少大型的室外数据集(主要瓶颈)
    • 缺少特殊姿态的数据集(如摔倒,打滚等)
    • 由于数据集是在实验室环境下建立的,模型的泛化能力较差
    • 3D姿态数据集是依靠适合室内环境的动作捕捉(MOCAP)系统构建的,系统需要带有多个传感器和紧身衣裤的复杂装置,在室外环境使用是不切实际的
      Many-to-one 3D-to-2D pose mapping

应用

  • 动画、游戏
  • 运动捕捉系统
  • 行为理解
  • 姿态估计可以作为其他算法的辅助环节
  • 人体姿态估计与人体相关的其他任务一起联合学习(人体解析)

方法

  • 从2D图片直接暴力回归得到3D坐标
    • 3D Human Pose Estimation from Monocular Images with Deep Convolutional Neural Network (ACCV 2014)
    • Coarse-to-Fine Volumetric Prediction for Single-Image 3D Human Pose (CVPR 2017)
    • 通过深度学习模型建立单目RGB图像到3D坐标的端到端映射,虽然能从图片中获取到丰富的信息,但没有中间监督的过程,模型受到图片的背景、光照和人的穿着影响较大,对于单一模型来说需要学习的特征也太过复杂。
  • 先获取2D信息,然后再“提升”到3D姿态
    • 联合2D,3D共同训练(2D信息通常以heatmap来表示)
      • Towards 3D Human Pose Estimation in the Wild (ICCV 2017)
      • 3D H
  • 12
    点赞
  • 116
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
MPJPE(Mean Per Joint Position Error)是一种常用于评估3D人体姿态估计算法的指标。它用于衡量估计出的3D关节点位置与真实标注之间的平均位置误差。这个指标的值越小,表示估计算法的准确性越高,说明该算法对人体姿态的估计效果越好。 值得注意的是,这个指标的计算方法可能因算法而异。在具体的论文中,可能会提供详细的计算公式和数据集说明,以便更好地理解和比较不同算法的表现。所以,如果想要更深入地了解MPJPE指标的计算细节,可以参考原始论文和相关的研究工作。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [3D姿态估计的评价指标MPJPE及其变种](https://blog.csdn.net/leviopku/article/details/118108885)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *3* [基于 AR 图像识别的算法研究与应用(python实现)](https://download.csdn.net/download/weixin_42380711/88245138)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值