3D人体姿态估计（介绍及论文归纳）

最新推荐文章于 2024-06-15 09:33:40 发布

置顶

fadedtj

最新推荐文章于 2024-06-15 09:33:40 发布

阅读量9.4k

点赞数 12

分类专栏：姿态估计 Pose Estimation 文章标签：计算机视觉机器学习

本文链接：https://blog.csdn.net/m0_50811752/article/details/116193048

版权

本文介绍了3D人体姿态估计的基本概念、难点和应用，包括2D和3D姿态估计的任务、挑战与数据集。文章指出，3D姿态估计面临小关节识别、遮挡、视角变化等问题，并探讨了数据集的局限性。此外，文章还讨论了从2D到3D姿态估计的转换、常用的网络结构和方法，以及当前研究的焦点和未来发展方向。

摘要由CSDN通过智能技术生成

基本概念

算法改进思路：
- 网络设计
- 特征流
- 损失函数
- 把问题黑箱化或者半黑箱化，然后从神经网络结构设计、数据处理、增强以及其他机器学习数学方法去暴力式的解决。
- PersonLab和PifPaf引入复合场(Composite Field)的概念，预测人为设计好的高维度向量来处理人体姿态预测问题，让模型预测更加巧妙的监督信息, 并且能降低量化误差，设计保持期望的一致性的关联肢体得分公式，再加之快速贪心算法，利用人体的连通特性就能得到多人姿态
- 提出无监督的方式处理人体部件
数据集：目前，3D姿态估计的主要瓶颈是缺少大型的室外数据集，并缺少一些特殊姿态的数据集（如摔倒, 打滚等）。这主要由于3D姿态数据集是依靠适合室内环境的动作捕捉（MOCAP）系统构建的，而MOCAP系统需要带有多个传感器和紧身衣裤的复杂装置，在室外环境使用是不切实际的。因此数据集大多是在实验室环境下建立的，模型的泛化能力也比较差。
集成新一代AutoML技术，降低算法试错成本
人体姿态估计（Human Pose Estimation）：指图像或视频中人体关节的定位问题。即，在所有关节姿势的空间中搜索特定姿势。
2D姿态估计（2D Pose Estimation）：从RGB图像估计每个关节的2D Pose (x, y) 坐标。
3D姿态估计（3D Pose Estimation）：从RGB D图像中估计每个关节的3D Pose (x, y, z) 坐标。
Human Pose Estimation 又被称为 Human Keypoint Detection
人体位姿：
- 位姿中的每一个坐标点被称为一个“部分 (part) ”或关节 (joint) 或关键点 (keypoint)
- 两个部分之间的有效连接被称为一个“对 (pair) ”或肢体
- 不是所有的关节之间的两两连接都能组成有效的pair（肢体）
基于判别的方法：把姿态估计当做一个回归问题

姿态估计难点

小且几乎看不到的关节
部分遮挡 (partial occlusion)
不同视角 (view-point)
衣服颜色 (black is bad) 及材质
光照变化 (lighting change)
背景杂乱 (background clutter)

人体结构化特性

身体部位比例
左右对称性
互穿性约束
关节界限（例如肘部不能向后弯曲）
身体的连通性（例如手腕与肘部刚性相关）

2D 姿态估计

任务

单人姿态估计
- Benchmark: MPII (2014)
- 代表作： CPM (CVPR 2016), Hourglass (ECCV 2016)
多人姿态估计
- Benchmark: COCO (2016), CrowdPose (2018)
- 自下而上: OpenPose (CVPR 2017), Associative Embedding (NIPS 2017)
- 自上而下: CPN (CVPR 2018), MSPN (Arxiv 2018), HRNet (CVPR 2019)
人体姿态跟踪
- Benchmark: PoseTrack (2017)
- 代表作: Simple Baselines (ECCV 2018)

挑战

遮挡
复杂背景
特殊姿态

3D 姿态估计

问题

从图片或视频中估计出关节点的三维坐标 (x, y, z) （回归问题）

输入：包含人体的图片
输出：N*3个人体关节点

挑战

巨大的3D姿态空间、自遮挡
单视角2D到3D的映射中固有的深度模糊性、不适定性（一个2D骨架可以对应多个3D骨架）
缺少大型的室外数据集（主要瓶颈）
- 缺少特殊姿态的数据集（如摔倒，打滚等）
- 由于数据集是在实验室环境下建立的，模型的泛化能力较差
- 3D姿态数据集是依靠适合室内环境的动作捕捉（MOCAP）系统构建的，系统需要带有多个传感器和紧身衣裤的复杂装置，在室外环境使用是不切实际的

应用

动画、游戏
运动捕捉系统
行为理解
姿态估计可以作为其他算法的辅助环节
人体姿态估计与人体相关的其他任务一起联合学习（人体解析）

方法

从2D图片直接暴力回归得到3D坐标
- 3D Human Pose Estimation from Monocular Images with Deep Convolutional Neural Network (ACCV 2014)
- Coarse-to-Fine Volumetric Prediction for Single-Image 3D Human Pose (CVPR 2017)
- 通过深度学习模型建立单目RGB图像到3D坐标的端到端映射，虽然能从图片中获取到丰富的信息，但没有中间监督的过程，模型受到图片的背景、光照和人的穿着影响较大，对于单一模型来说需要学习的特征也太过复杂。
先获取2D信息，然后再“提升”到3D姿态
- 联合2D，3D共同训练（2D信息通常以heatmap来表示）
  - Towards 3D Human Pose Estimation in the Wild (ICCV 2017)
  - 3D H

最低0.47元/天解锁文章

fadedtj

关注

12
点赞
踩
116

收藏

觉得还不错? 一键收藏
0
评论
3D人体姿态估计（介绍及论文归纳）

3D人体姿态估计基本概念姿态估计难点人体结构化特性2D 姿态估计任务挑战3D 姿态估计问题挑战应用方法数据集类型可用信息姿态数据集PoseTrackCrowdPoseHuman3.6MDensePoseCOCOMPIIFLICLSPRGB数据集Leeds Sports Pose (LSP) DatasetFLIC DatasetMPII Human Pose DatasetMS COCO Keypoint LeaderboardAI ChallengePoseTrackRGB+D 60/120 数据集当前主
复制链接

扫一扫

专栏目录