3D人体姿态估计(介绍及论文归纳)
基本概念
- 算法改进思路:
- 网络设计
- 特征流
- 损失函数
- 把问题黑箱化或者半黑箱化,然后从神经网络结构设计、数据处理、增强以及其他机器学习数学方法去暴力式的解决。
- PersonLab和PifPaf引入复合场(Composite Field)的概念,预测人为设计好的高维度向量来处理人体姿态预测问题,让模型预测更加巧妙的监督信息, 并且能降低量化误差,设计保持期望的一致性的关联肢体得分公式,再加之快速贪心算法,利用人体的连通特性就能得到多人姿态
- 提出无监督的方式处理人体部件
- 数据集:目前,3D姿态估计的主要瓶颈是缺少大型的室外数据集,并缺少一些特殊姿态的数据集(如摔倒, 打滚等)。这主要由于3D姿态数据集是依靠适合室内环境的动作捕捉(MOCAP)系统构建的,而MOCAP系统需要带有多个传感器和紧身衣裤的复杂装置,在室外环境使用是不切实际的。因此数据集大多是在实验室环境下建立的,模型的泛化能力也比较差。
- 集成新一代AutoML技术,降低算法试错成本
- 人体姿态估计(Human Pose Estimation):指图像或视频中人体关节的定位问题。即,在所有关节姿势的空间中搜索特定姿势。
- 2D姿态估计(2D Pose Estimation):从RGB图像估计每个关节的2D Pose (x, y) 坐标。
- 3D姿态估计(3D Pose Estimation):从RGB D图像中估计每个关节的3D Pose (x, y, z) 坐标。
- Human Pose Estimation 又被称为 Human Keypoint Detection
- 人体位姿:
- 位姿中的每一个坐标点被称为一个“部分 (part) ”或关节 (joint) 或关键点 (keypoint)
- 两个部分之间的有效连接被称为一个“对 (pair) ”或肢体
- 不是所有的关节之间的两两连接都能组成有效的pair(肢体)
- 基于判别的方法:把姿态估计当做一个回归问题
姿态估计难点
- 小且几乎看不到的关节
- 部分遮挡 (partial occlusion)
- 不同视角 (view-point)
- 衣服颜色 (black is bad) 及材质
- 光照变化 (lighting change)
- 背景杂乱 (background clutter)
人体结构化特性
- 身体部位比例
- 左右对称性
- 互穿性约束
- 关节界限(例如肘部不能向后弯曲)
- 身体的连通性(例如手腕与肘部刚性相关)
2D 姿态估计
任务
- 单人姿态估计
- Benchmark: MPII (2014)
- 代表作: CPM (CVPR 2016), Hourglass (ECCV 2016)
- 多人姿态估计
- Benchmark: COCO (2016), CrowdPose (2018)
- 自下而上: OpenPose (CVPR 2017), Associative Embedding (NIPS 2017)
- 自上而下: CPN (CVPR 2018), MSPN (Arxiv 2018), HRNet (CVPR 2019)
- 人体姿态跟踪
- Benchmark: PoseTrack (2017)
- 代表作: Simple Baselines (ECCV 2018)
挑战
- 遮挡
- 复杂背景
- 特殊姿态
3D 姿态估计
问题
从图片或视频中估计出关节点的三维坐标 (x, y, z) (回归问题)
- 输入:包含人体的图片
- 输出:N*3个人体关节点
挑战
- 巨大的3D姿态空间、自遮挡
- 单视角2D到3D的映射中固有的深度模糊性、不适定性(一个2D骨架可以对应多个3D骨架)
- 缺少大型的室外数据集(主要瓶颈)
- 缺少特殊姿态的数据集(如摔倒,打滚等)
- 由于数据集是在实验室环境下建立的,模型的泛化能力较差
- 3D姿态数据集是依靠适合室内环境的动作捕捉(MOCAP)系统构建的,系统需要带有多个传感器和紧身衣裤的复杂装置,在室外环境使用是不切实际的
应用
- 动画、游戏
- 运动捕捉系统
- 行为理解
- 姿态估计可以作为其他算法的辅助环节
- 人体姿态估计与人体相关的其他任务一起联合学习(人体解析)
方法
- 从2D图片直接暴力回归得到3D坐标
- 3D Human Pose Estimation from Monocular Images with Deep Convolutional Neural Network (ACCV 2014)
- Coarse-to-Fine Volumetric Prediction for Single-Image 3D Human Pose (CVPR 2017)
- 通过深度学习模型建立单目RGB图像到3D坐标的端到端映射,虽然能从图片中获取到丰富的信息,但没有中间监督的过程,模型受到图片的背景、光照和人的穿着影响较大,对于单一模型来说需要学习的特征也太过复杂。
- 先获取2D信息,然后再“提升”到3D姿态
- 联合2D,3D共同训练(2D信息通常以heatmap来表示)
- Towards 3D Human Pose Estimation in the Wild (ICCV 2017)
- 3D H
- 联合2D,3D共同训练(2D信息通常以heatmap来表示)