基于距离变换的骨架提取_CVPR 2020 (Oral) | DeepCap: 基于弱监督学习的单目人体动作捕捉...

DeepCap: Monocular Human Performance Capture Using Weak Supervision

人体动作捕捉一直以来都是一个重要的研究热点,在诸如电影制作、虚拟试衣、混合现实等众多领域都有着重要的应用,本文提出了一种基于单目RGB视频的人体捕捉方案,文章已被CVPR 2020接收。

320c94db08e0a28e86692e60b367715a.png

文章作者来自德国马普所、德国萨尔大学和美国斯坦福大学,作者提出了一个基于弱监督神经网络的单目人体动作捕捉方法。整个网络架构分为两个网络,分别进行人体姿态估计和非刚性表面变形,训练基于多视角图像以弱监督的方式进行。

项目主页:

DeepCap: Monocular Human Performance Capture Using Weak Supervision​people.mpi-inf.mpg.de

ce63a316cc626b94cb48aeebb199f442.png
Teaser

下面展示了文章的视频

df48ae76534fd2c04fe42d9cbb1e232d.png
CVPR 2020(Oral) | DeepCaphttps://www.zhihu.com/video/1232324693669511168

Method

给定一个穿着普通衣服的运动中的人体的RGB视频,目标是捕获整个人体的稠密变形表面。作者训练了一个神经网络来达到这个目的,整个网络由两个部分组成:

  • PoseNet:从单目图像估计人体骨架的姿态 (基于关节点角度表达)
  • DefNet:即变形网络 (Deformation Network),回归人体表面的非刚性形变 (基于嵌入变形图 (Embedded Deformation Graph) 表达)

为了避免3D标注数据的使用,整个网络以弱监督的方向训练,为此作者提出了一个可微 (differentiable) 的人体变形和渲染模型,使得可以渲染人体模型并将其与2D图像进行比较,以此来反向传播损失。作者在经过校准的带有绿幕的多相机工作室中捕捉视频序列作为训练数据,但在测试阶段,只需要单目RGB视频便可以进行人体动作捕捉。整个方法流程如下图所示:

289b9d28d42fd2f90474d62e5eb73a4d.png
Overview

Template and Data Acquisition

Character Model

文章方法依赖个体相关的3D模板网格,作者首先使用3D扫描仪扫描出目标人体的带纹理的网格,然后再自动绑定一个骨架,该骨架相关的参数包含关节点角度

equation?tex=%5Cboldsymbol%7B%5Ctheta%7D+%5Cin+%5Cmathbb%7BR%7D%5E%7B27%7D,相对于相机的旋转
equation?tex=%5Cboldsymbol%7B%5Calpha%7D+%5Cin+%5Cmathbb%7BR%7D%5E3 和平移
equation?tex=%5Cmathbf%7Bt%7D+%5Cin+%5Cmathbb%7BR%7D%5E3。为了对人体表面的非刚性形变进行建模,作者自动计算了一个包含
equation?tex=K 个节点的嵌入变形图
equation?tex=%5Cmathcal%7BG%7D,节点参数包含欧拉角
equation?tex=%5Cmathbf%7BA%7D+%5Cin+%5Cmathbb%7BR%7D%5E%7BK+%5Ctimes+3%7D 和平移
equation?tex=%5Cmathbf%7BT%7D+%5Cin+%5Cmathbb%7BR%7D%5E%7BK+%5Ctimes+3%7D。与 LiveCap[2] 一致作者将人体网格划分为不同的非刚性类别,得到每个顶点的刚性权重
equation?tex=s_i,这样便可以根据不同的表面材质来建模变形,如皮肤变形的幅度会比衣服更小。下图展示了两个角色模型。

bd0c2049f272f90d592bb9170431268f.png
Character Model

Template Mesh

人体模板网格是通过商业软件 Agisoft Metashape 重建的,作者使用134个彩色相机同时采集了T-Pose下的静态人体图片,该软件从这134张彩色图片重建出带纹理的人体模型,然后作者对重建后的网格进行了简化和重建网格化,以得到质量更好地三角网格。

Embedded Deformation Graph

为了得到人体的嵌入变形图,作者对人体模板网格进行了简化,得到了大约含有500个顶点的简化网格,通过简化后的网格的拓扑关系计算每个节点的相邻节点集合

equation?tex=%5Cmathcal%7BN%7D_%7B%5Cmathrm%7Bn%7D%7D%28k%29,通过在模板网格寻找每个简化网格顶点的最近点作为嵌入变形图的节点位置
equation?tex=%5Cmathbf%7BG%7D,通过计算节点
equation?tex=k 到顶点
equation?tex=i 的测地距离 (geodesic distance) 来计算影响顶点
equation?tex=i 的节点集合
equation?tex=%5Cmathcal%7BN%7D_%7B%5Cmathrm%7Bvn%7D%7D%28i%29

Skeleton

作者通过拟合 SMPL 人体模型到模板网格来将其骨架嵌入到人体中,对于与皮肤比较近的模板网格顶点如裤子短袖等,直接将 SMPL 的蒙皮权重迁移到模板网格顶点上,对于离得比较远的顶点如裙子等,通过 Blender 软件自动计算蒙皮权重。人体骨架一共有23个关节点包含27个角度参数,并含有21个关键点 (17个人体和4个人脸关键点)。

Training Data

作者使用带有绿幕的标定好的多相机系统来采集表演者各种动作的多视角视频,并使用 OpenPose 检测图片中的2D人体关键点并进行时序滤波。然后计算前景人体Mask并计算对应的距离变换图 (distance transform image)

equation?tex=D_%7Bf%2Cc%7D,其中
equation?tex=f+%5Cin+%5B0%2C+F%5D
equation?tex=c+%5Cin+%5B0%2C+C%5D分别表示视频帧序号和相机编号。在训练阶段,随机采样一个相机视角
equation?tex=c%27 和 视频帧
equation?tex=f%27 ,并使用基于2D关键点计算的人体包围盒裁剪图片。最终训练时的输入图片
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值