项目地址:https://github.com/CMU-Perceptual-Computing-Lab/MonocularTotalCapture
摘要
我们展示第一方法能够捕捉3D所有动作,一个目标人从单目相机。给定一张图像或者一段单目视频,我们的方法重建动作从身体上,脸,以及手指展示,通过一个3D可变形的mesh模型。我们使用一个有效的展示叫做3D部分方向域(POFs),来编码3D方向,所有身体部分在常见的2D图像空间中。POFs被预测通过一个全卷积网络,我们收集一个新的3D人体动作数据集,拍摄各种所有人体动作,40个参数者在一个多视角系统下。我们利用一个3D形变人体模型来重建所有人位姿从CNN输出,使用帮助位姿和形变在模型中。我们也展示了一个基于纹理的跟踪方法来获得时间一致性动作相机输出。我们展示通过大量的评估包括比较存在的特定身体和特定手的方法,以及性能分析在摄像头视点和人的位姿改变。最后,我们证明这个结果我们的所有人体动作捕获在多张调整在广泛的视频中。
效果展示
系统流程
讨论
在这篇文章,我们展示一个方法 重建3D所有动作,在一个单人从一张图像或者一个单目视频。我们通过评估稳健型关于我们的方法,在各种基准上以及证明单目3D所有动作捕获结果在各种视频。
存在一些限制在我们的方法中。首先,我们观察失败情况,当一个重要部分在目标人上是不可见的(超出图像的框或者遮挡被其它目标),由于错误网络预测。第二,我们的手位姿检测失败在无效的像素,严重的运动模糊或者遮挡被目操作。第三,我们使用一个简单的方法去评估脚和脸表达,统一2D关键点信息。
了解更多关于《计算机视觉与图形学》相关知识,请关注公众号:
下载我们视频中代码和相关讲义,请在公众号回复:计算机视觉课程资料