如何用一张照片做出连贯视频?研究人员认为,这需要时序生成对抗网络(Temporal GAN)来帮忙。这是一个端对端的语音驱动的面部动画合成模型,通过静止图像和一个语音生成人脸视频。模型由时间生成器和3个鉴别器构成,这个生成器由内容编码器(Content Encoder),一个鉴别编码器(Identity Encoder)、一个帧解码器(Frame Decoder)和声音解码器(Noise Generator)组成,不同模块组合成一个可嵌入模块,通过解码网络转换成帧。
开源项目地址:https://github.com/DinoMan/speech-driven-animation
观看示例动画:https://sites.google.com/view/facial-animation
1、项目下载
git clone https://github.com/DinoMan/speech-driven-animation
2、下载模型库
进入下载地址:https://drive.google.com/drive/folders/17Dc2keVoNSrlrOdLL3kXdM8wjb20zkbF
将模型文件放在sda/data/
3、安装库
cd /home/project/speech-driven-animation
pip
三、让照片说话
最新推荐文章于 2024-11-14 08:53:59 发布
本文介绍了如何利用时序生成对抗网络(Temporal GAN)将静态照片转化为与语音同步的面部动画。该模型由内容编码器、鉴别编码器、帧解码器和声音解码器组成,可在GRID、TCD-TIMIT、CREMA-D和LRW数据集上运行。提供了一个端到端的开源项目,包括详细的安装和运行指南,涉及CUDA、PyTorch等技术,帮助读者在Linux和Windows上实现这一功能。
摘要由CSDN通过智能技术生成