FrankMocap

最新推荐文章于 2024-06-26 18:51:09 发布

jamorZhong

最新推荐文章于 2024-06-26 18:51:09 发布

阅读量1.6k

点赞数 1

分类专栏：姿势估计

本文链接：https://blog.csdn.net/jamorZhong/article/details/109038113

版权

FrankMocap是一个结合身体和手部动作捕捉的系统，达到实时（9.5 fps）且高精度的效果。通过单眼RGB输入，它使用回归模块预测3D身体和手部姿势，再进行集成。实验表明，FrankMocap在手部姿势估计精度上达到了SOTA，并且速度快。

摘要由CSDN通过智能技术生成

摘要

问题：目前存在的动作捕捉方法要么只聚焦在身体动作捕捉，要么只聚焦在手部动作捕捉。
方法：提出了FrankMocap动作捕捉系统，既可以捕捉身体动作，也可以捕捉手部动作，在速度（9.5 fps）和准确率上都达到SOTA。

介绍

动作捕捉的应用：人机交互，社交人工智能和机器人。
当前存在的问题：
- 人体姿势估计准确率高但手指姿势被忽略。
- 手部姿势估计不适合更具挑战性的野外场景。
- 最近表达手和身体的3D模型相对较慢且不适合实时应用。
解决方法：提出一个快速准确的运动捕捉方法，单眼RGB.该方法由两个预测身体和手部3D姿势的回归模块和一个集成身体和手部姿势的模块组成。方法的主要思想是使身体姿势模块和手部姿势模块的输出尽可能地兼容，以便更有效地将两者集成一起。身体模块和手部模块基于SMPLX模型贡献了相同输出结构的不同部分，从而实现近实时性能人体3D运动捕捉。

方法

overview

SMPL-X模型概述

SMPL-X模型可以通过低维形状和姿势参数的组合表示人体的形状变化和于姿势有关的变形。
SMPL-X模型公式： $\boldsymbol V_w = W(\phi_w,\theta_w,\beta_w),$
其中 $\phi_w\in\mathbb R^3$ 为整个人体的整体旋转， $\theta_w\in\mathbb R^{(21+15+15)\times3}$ 为整个人体姿态相关的变形参数， $\beta_w\in\mathbb R^{10}$ 为人体和手形状的相关参数。将 $\theta_w$ 分解， $\theta_w=\{\theta_w^b,\theta_w^{lh},\theta_w^{rh}\}$ ，其中 $\theta_w^b\in\mathbb R^{21\times3}$ 为身体姿势参数， $\theta_w^{lh}\in\mathbb R^{15\times3}$ 为左手姿势参数， $\theta_w^{rh}\in\mathbb R^{15\times3}$ 为右手姿势参数。最后SMPL-X模型输出 $V_w\in\mathbb R^{10475\times3}$ ,代表mesh的10475个点。3D关节点位置采用回归函数 $R$ 获得： $\boldsymbol J_w^{3D}=R_w(\boldsymbol V_w)，$ 其中 $\boldsymbol J_w^{3D}\in\mathbb R^{(21+15+15)\times3}$ 。
手模型-通过摘取SMPL-X的手部零件定义：