FrankMocap
摘要
问题:目前存在的动作捕捉方法要么只聚焦在身体动作捕捉,要么只聚焦在手部动作捕捉。
方法:提出了FrankMocap动作捕捉系统,既可以捕捉身体动作,也可以捕捉手部动作,在速度(9.5 fps)和准确率上都达到SOTA。
介绍
- 动作捕捉的应用:人机交互,社交人工智能和机器人。
- 当前存在的问题:
- 人体姿势估计准确率高但手指姿势被忽略。
- 手部姿势估计不适合更具挑战性的野外场景。
- 最近表达手和身体的3D模型相对较慢且不适合实时应用。
- 解决方法:提出一个快速准确的运动捕捉方法,单眼RGB.该方法由两个预测身体和手部3D姿势的回归模块和一个集成身体和手部姿势的模块组成。方法的主要思想是使身体姿势模块和手部姿势模块的输出尽可能地兼容,以便更有效地将两者集成一起。身体模块和手部模块基于SMPLX模型贡献了相同输出结构的不同部分,从而实现近实时性能人体3D运动捕捉。
相关工作
3D参数化人体模型
- SCAPE:解决了形状变化和姿势变化的问题。
- SMPL:在线性混合蒙皮的顶部学习局部姿势相关的混合形状,以实现整体网格变形和形状变化。
- MANO:手形变模型。
- SMPL+H:统一的身体手模型。
- Adam:身体,手和脸的统一模型。
- SMPL-X:统一的身体,手和脸模型。
单图像3D人体姿势估计
- 直接从单个图像中预测3D身体关键点位置-缺少3D关节角度并且不保存身体各部分的长度。
- 采用参数3D人体模型(SMPL或Adam)-将3D模型拟合到2D观测值,重构3D人体姿势。参数利用深度学习框架直接回归得到。
- 混合框架-先通过深度学习得到2D和深度的热点图,然后将其拟合到骨骼模型去重建关节角度。
- 数据集:混合数据集=室内数据集(Human3.6M)+野外数据集(COCO或3DPW)
- 输入:大多数为单帧图像,少数为序列图像(视频)。
单图像3D手姿势估计
- 基于深度图像的姿势估计-无法轻松应用于野生RGB图像和视频。
- 基于单眼RGB的姿势估计-关注3D关节位置而非关节角度。
- 使用OpenPose预测2D姿势并回归到MANO模型。
- 使用2D热点图预测模块,同样回归到MANO模型。
- 预测2D热点图,使用图卷积网络回归手模型顶点。
身体和手的联合3D姿势估计
缺乏用于全身捕捉的数据集-现有方法均采用优化方法,计算时间长。
- 使用SMPL-X代表整个身体姿势,通过拟合增加约束(身体姿势先验和碰撞惩罚器)的2D关键点优化模型参数。
- MTC:采用深度神经网络获得2.5D姿势,通过优化获得Adam模型参数。
方法
SMPL-X模型概述
SMPL-X模型可以通过低维形状和姿势参数的组合表示人体的形状变化和于姿势有关的变形。
SMPL-X模型公式: V w = W ( ϕ w , θ w , β w ) , \boldsymbol V_w = W(\phi_w,\theta_w,\beta_w), Vw=W(ϕw,θw,βw),
其中 ϕ w ∈ R 3 \phi_w\in\mathbb R^3 ϕw∈R3为整个人体的整体旋转, θ w ∈ R ( 21 + 15 + 15 ) × 3 \theta_w\in\mathbb R^{(21+15+15)\times3} θw∈R(21+15+15)×3为整个人体姿态相关的变形参数, β w ∈ R 10 \beta_w\in\mathbb R^{10} βw∈R10为人体和手形状的相关参数。将 θ w \theta_w θw分解, θ w = { θ w b , θ w l h , θ w r h } \theta_w=\{\theta_w^b,\theta_w^{lh},\theta_w^{rh}\} θw={
θwb,θwlh,θwrh},其中 θ w b ∈ R 21 × 3 \theta_w^b\in\mathbb R^{21\times3} θwb∈R21×3为身体姿势参数, θ w l h ∈ R 15 × 3 \theta_w^{lh}\in\mathbb R^{15\times3} θwlh∈R15×3为左手姿势参数, θ w r h ∈ R 15 × 3 \theta_w^{rh}\in\mathbb R^{15\times3} θwrh∈R15×3为右手姿势参数。最后SMPL-X模型输出 V w ∈ R 10475 × 3 V_w\in\mathbb R^{10475\times3} Vw∈R10475×3,代表mesh的10475个点。3D关节点位置采用回归函数 R R R获得: J w 3 D = R w ( V w ) , \boldsymbol J_w^{3D}=R_w(\boldsymbol V_w), Jw3D=Rw(Vw),其中 J w 3 D ∈ R ( 21 + 15 + 15 ) × 3 \boldsymbol J_w^{3D}\in\mathbb R^{(21+15+15)\times3} Jw3D∈R(21+15+15)×3。
手模型-通过摘取SMPL-X的手部零件定义: