Vid2Actor: Free-viewpoint Animatable Person Synthesis from Video in the Wild
从自然环境视频合成自由视点动画人物
摘要
给定一个含有的人的自然环境视频,作者能够在视频中重建出一个人的动画模型。重建出的模型在不需要显性3D网格重建,只通过学习就能控制渲染任意姿态到任意相机视角。本文的核心是一个体3D人表示重建用一个深度网络训练输入视频,能够合成新颖的姿态/视角。本文的方法是优于基于GAN的图像到图像转换,因为它能通过图像内在的3D表示来合成任意姿态,与此同时还它不像基于Mesh学习方法需要预定义模型或者真值网络来进行训练。实验证明了设计选择,并在合成数据和不同人群进行无约束活动的真实视频上生成结果(例如:跳舞、打网球)。最后,作者在学习模型上证明运动重定位,子弹时间渲染。
系统流程图讲解
作者开始使用一个常量向量z通过神经网络来制造一个规范体积和运动权重体积。然后,与运动基相结合,从预定义的标准姿态和目标姿态导出,作者显性形变规范体积到一个扭曲体积和导出一个Mask体积,它被用来去Mask扭曲体积来得到一个目标体积。最后,作者渲染目标体积,然后优化渲染图像和真实图像的损失,优化网络参数来得到最后的规范和运动权重体。
实验结果
图(a)表示合成的新颖姿态和视角、图(b)为学习到的规范体积、图(c)为学习到的运动权重
结论
不足:模型的质量依赖于训练数据中的视图和姿态的多样性。一个多样的数据会生成更为尖锐的结果和对不可见地方能够重建较好。在介绍中值得注意的是,作者假设目标的外观是既不与视角相关,也不与姿态相关,这在现实世界或许是不合理的。作者通过引入感知损失来去减轻这些限制,使重建结果看似合理(即使真实的物理世界是不合理的)。未来研究工作将会研究依赖光照影响和较复杂形变的建模。例如:使用一个光照阶段来学习合成one-light-at-aptime(OLAT)图像,能够实现可重新照明的视频。另外,使用MLP网络处理隐式场景重建,来提出一条超越体素网格提高分辨率的方法。
了解更多关于《计算机视觉与图形学》相关知识,请关注公众号: