DeepCap: Monocular Human Performance Capture Using Weak Supervision
人体动作捕捉一直以来都是一个重要的研究热点,在诸如电影制作、虚拟试衣、混合现实等众多领域都有着重要的应用,本文提出了一种基于单目RGB视频的人体捕捉方案,文章已被CVPR 2020接收。
文章作者来自德国马普所、德国萨尔大学和美国斯坦福大学,作者提出了一个基于弱监督神经网络的单目人体动作捕捉方法。整个网络架构分为两个网络,分别进行人体姿态估计和非刚性表面变形,训练基于多视角图像以弱监督的方式进行。
项目主页:
DeepCap: Monocular Human Performance Capture Using Weak Supervisionpeople.mpi-inf.mpg.de下面展示了文章的视频
Method
给定一个穿着普通衣服的运动中的人体的RGB视频,目标是捕获整个人体的稠密变形表面。作者训练了一个神经网络来达到这个目的,整个网络由两个部分组成:
- PoseNet:从单目图像估计人体骨架的姿态 (基于关节点角度表达)
- DefNet:即变形网络 (Deformation Network),回归人体表面的非刚性形变 (基于嵌入变形图 (Embedded Deformation Graph) 表达)
为了避免3D标注数据的使用,整个网络以弱监督的方向训练,为此作者提出了一个可微 (differentiable) 的人体变形和渲染模型,使得可以渲染人体模型并将其与2D图像进行比较,以此来反向传播损失。作者在经过校准的带有绿幕的多相机工作室中捕捉视频序列作为训练数据,但在测试阶段,只需要单目RGB视频便可以进行人体动作捕捉。整个方法流程如下图所示:
Template and Data Acquisition
Character Model
文章方法依赖个体相关的3D模板网格,作者首先使用3D扫描仪扫描出目标人体的带纹理的网格,然后再自动绑定一个骨架,该骨架相关的参数包含关节点角度
Template Mesh
人体模板网格是通过商业软件 Agisoft Metashape 重建的,作者使用134个彩色相机同时采集了T-Pose下的静态人体图片,该软件从这134张彩色图片重建出带纹理的人体模型,然后作者对重建后的网格进行了简化和重建网格化,以得到质量更好地三角网格。
Embedded Deformation Graph
为了得到人体的嵌入变形图,作者对人体模板网格进行了简化,得到了大约含有500个顶点的简化网格,通过简化后的网格的拓扑关系计算每个节点的相邻节点集合
Skeleton
作者通过拟合 SMPL 人体模型到模板网格来将其骨架嵌入到人体中,对于与皮肤比较近的模板网格顶点如裤子短袖等,直接将 SMPL 的蒙皮权重迁移到模板网格顶点上,对于离得比较远的顶点如裙子等,通过 Blender 软件自动计算蒙皮权重。人体骨架一共有23个关节点包含27个角度参数,并含有21个关键点 (17个人体和4个人脸关键点)。
Training Data
作者使用带有绿幕的标定好的多相机系统来采集表演者各种动作的多视角视频,并使用 OpenPose 检测图片中的2D人体关键点并进行时序滤波。然后计算前景人体Mask并计算对应的距离变换图 (distance transform image)