文章方法
从RGB视频序列中,使用普通的背景以克服概述的限制深度相机和多视图设置。是第一个处理从单目视频输入自动3D全人体性能捕捉的问题。我们的模板使用特定于角色的模板网格。在记录前,通过图像重建得到模板网格的变形,并使用运动骨架和中等尺度变形场进行参数化。根据这种形状表示,我们估计了输入视频中每一帧的actor的变形,使变形的模板与输入帧紧密匹配。由此产生的算法允许我们生成一个演员全身表演的时间上一致的表面表示。使用的是卷积神经网络二维判别联合预测作为地标,将3D骨架登记到图像中。我们利用第二个CNN来处理翻转的模糊性,这个CNN被训练成从单眼图像中返回三维关节位置。(存在第二个CNN主要是解决当2D投影正确的时候,对应的3D位置可能还是错的)。
为了从根源上解决3D识别不准确的问题,采用低维线性轨迹子空间约束三维位姿,在非刚性结构的情况下被证明是有效的。基于自动提取的轮廓图计算一个非刚性变形场,以捕获松散服装引起的非刚性表面变形,并将变形模板网格精确地覆盖到输入图像帧上。
总结贡献
1、首个人体3D捕捉方法依赖单目相机输入;
2、将鉴别二维和三维检测与基于批处理的运动优化相结合,解决了单目三维位姿估计固有的翻转歧义问题
3、利用自动提取的单眼轮廓恢复非刚性表面变形
4、由大约40k帧组成的基准数据集,涵盖了各种不同的场景。