结合语音合成模型、视频生成模型等,本论文研究了如何使用原始文本生成人读随机文本的虚拟视频,且口型完全对照,更加自然逼真。
1. 引言
目前存在大量关于使用机器学习方法生成图像的研究(Isola et al.,2016)。同样,语音合成方面也有显著进展(Sotelo et al.,2017)。不过,将两种模式同时建模的研究并不多。本论文展示了结合多个近期开发的模型生成人读随机文本的虚拟视频。我们的模型可在人说话的任意近景(close shot)视频集合(带对应的转录文本)上进行训练。结果就是构建了一个系统,可利用任意文本生成语音,并根据现有视频中嘴型区域进行修改,以使其更加自然逼真。视频示例:http://ritheshkumar.com/obamanet。我们以 Barack Obama 为例展示了该方法,因为他的视频常用于对唇同步方法进行基准测试,但是我们的方法还可用于生成任意人的视频(在可获取数据的前提下)。
2. 相关研究
近期,生成照片级真实感视频领域出现了显著进展(Thies et al., 2016)。具体来说,Karras et al. (2017) 尝试基于音频生成人脸动画。Suwajanakorn et al. (2017) 的研究与我们的研究