paper title: FrankMocap:Fast monocular 3D Hand and Body Motion Capture by Regression and Intergretion
paper link:https://arxiv.org/abs/2008.08324
oral or demo video:https://www.youtube.com/watch?v=HXTK5ro9kGc
project: -
github: https://github.com/facebookresearch/frankmocap
conf & anthor: arXiv, Yu Rong(CUHK & FAIR) et al;
arXiv submit v1:2020.08
主要内容
当前的单目姿态估计方法要么是仅关注身体动作,忽略了手部的动作;要么是仅关注手部的姿态而不考虑身体的姿态。这篇文章提出一个可以在自然环境中同时捕捉身体和手部的3D姿态的系统,称为frankmocap,速度较快,可以达到9.5fps。(在Ubuntu18.04,RTX2080Ti上实测单人bodyMocap约6fps)。
方法流程
FrankMocap使用两个回归模块从单张RGB图像中分别预测身体和手部的姿态,然后得到的结果有一个整合模块生成全身的3D姿态结果。如下图所示:
1. SMPL-X
SMPL-X模型是SMPL模型的一个扩展,可以通过低维度的pose和shape的组合,得到人体的形状变化和姿态相关的变形表示。相比于SMPL,SMPL-X除了身体之外,还可以通过增加额外的参数,实现手指和表情的表示。
如果SMPL-X的模型为 S S S,那么输入姿态相关的参数,可以得到变形的结果:
M w = S ( ϕ w , θ w , β w ) M_{w} = S(\phi_{w},\theta_{w},\beta_{w}) Mw=S(ϕw,θw,βw)
其中:
- ϕ w ∈ R 3 \phi_{w} \in R^{3} ϕw∈R3为全身的朝向参数;
- θ w ∈ R ( 21 + 15 + 15 ) X 3 \theta_{w} \in R^{(21+15+15)X3} θw∈R(21+15+15)X3是身体和左右手的pose-dependent变形,21为身体的关节数目,15是一只手的关节数目;
- β w \beta_{w} βw是shape参数;
- M w ∈ R 10475 X 3 M_{w} \in R^{10475X3} Mw∈R10475X3是SMPL-X得到的变形后的顶点信息;
得到 M w M_{w} Mw后,可以通过关节点位置回归函数 R R R得到3D关节点位置:
J w 3 D = R w ( M w ) J^{3D}_{w} = R_{w}(M_{w}) Jw3D=Rw(Mw)
其中 J w 3 D ∈ R ( 22 + 15 + 15 ) X 3