有趣的研究奥巴马Net:从文本合成真实的唇语口型

论文介绍了ObamaNet,一种能从文本生成逼真唇语视频的系统。该系统结合文本转语音、关键点生成和视频生成模型,使用神经网络实现,无需传统计算机视觉技术。通过训练,系统可依据任意文本生成奥巴马的唇动视频,也可应用于其他人。
摘要由CSDN通过智能技术生成

结合语音合成模型、视频生成模型等,本论文研究了如何使用原始文本生成人读随机文本的虚拟视频,且口型完全对照,更加自然逼真。


1. 引言


目前存在大量关于使用机器学习方法生成图像的研究(Isola et al.,2016)。同样,语音合成方面也有显著进展(Sotelo et al.,2017)。不过,将两种模式同时建模的研究并不多。本论文展示了结合多个近期开发的模型生成人读随机文本的虚拟视频。我们的模型可在人说话的任意近景(close shot)视频集合(带对应的转录文本)上进行训练。结果就是构建了一个系统,可利用任意文本生成语音,并根据现有视频中嘴型区域进行修改,以使其更加自然逼真。视频示例:http://ritheshkumar.com/obamanet。我们以 Barack Obama 为例展示了该方法,因为他的视频常用于对唇同步方法进行基准测试,但是我们的方法还可用于生成任意人的视频(在可获取数据的前提下)


2. 相关研究


近期,生成照片级真实感视频领域出现了显著进展(Thies et al., 2016)。具体来说,Karras et al. (2017) 尝试基于音频生成人脸动画。Suwajanakorn et al. (2017) 的研究与我们的研究

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值