情人节这天，idol居然对我「说情话」！？

飞桨PaddlePaddle

于 2021-02-14 18:20:27 发布

阅读量223

点赞数

文章标签：人工智能编程语言 github 语音识别人脸识别

原文链接：https://github.com/PaddlePaddle/PaddleGAN

版权

点击左上方蓝字关注我们

情人节将至，当其他人还在苦思冥想如何准备情人节礼物时，我却已经收到了我最喜欢的idol说给我的情话视频～不仅如此，我还用自己的照片说出了亲爱的ta最喜欢的告白台词，究竟是什么技术让我能够在这个情人节脱颖而出？

什么？说我吹牛。那先来放一些我的idol情话视频的节选！

哼哼，这下总算是相信了吧？多亏了这项绝技，只要我手里拥有「人脸图片/视频」和「告白音频」，不仅可以拥有idol对我说情话的视频，甚至是用我本人的脸，也可以同样说出优美的情话、唱出动人的情歌，“美丽的皮囊+有趣的灵魂”——这样完美的搭配，简直是完胜其他人的情人节礼物，再假装不经意地发在朋友圈中，简直是标准“凡尔赛式秀恩爱”呀~

什么？你以为这门绝技需要耗时耗力？

大错特错！PaddleGAN（飞桨生成对抗网络套件）中的Wav2lip唇形精准合成算法让你轻松变身「情场高手」！

心急的小伙伴直接传送门去查看完整开源的项目呀：

https://github.com/PaddlePaddle/PaddleGAN

开源不易，欢迎Star支持啊！

接下来，就让我们来简单了解下这个技术原理，和具体的操作步骤，手把手教你如何让新垣结衣告白，让小罗伯特唐尼说周星驰电影经典桥段“我养你”或者让任何你心仪的Idol说情话꒰ᐢ⸝⸝•༝•⸝⸝ᐢ꒱

而这个「让idol说情话、自己唱情歌」的魔法总共只需要四步！！！

① 安装Paddle环境并下载PaddleGAN

② 选择想要「被告白/对口型」的idol/人脸以及「告白台词音频」内容

③ 将准备好的「人脸视频/图片」以及「告白台词音频」输入Wav2lip模型中，让这个模型进行推理工作

④ 输出idol的嘴唇与告白语音做出匹配唇形动作的idol说情话视频，就可以分享到朋友圈过凡尔赛式的情人节啦~

聪明的小伙伴们可能注意到了，这里面最核心的就是名称为Wav2lip的模型，那它到底是个什么原理呢？

PaddleGAN的唇形迁移能力

Wav2lip

Wav2lip是PaddleGAN中提供的一个基于GAN的唇形动作迁移算法模型，它的网络结构可以通过VisualDL直接查看到：

Power by VisualDL：

https://github.com/PaddlePaddle/VisualDL

Wav2lip模型实现唇形与语音精准同步突破的关键在于：

采用唇形同步判别器（Discriminator），以强制生成器（Generator）持续产生准确且逼真的唇部运动。
通过在判别器中，使用多个连续帧而不是单个帧，并使用视觉质量损失（visual quality loss），而不仅仅是对比损失（L1 Loss）来考虑每帧之间的时间相关性，从而很大程度的提升视觉效果。

详情请见：

https://github.com/PaddlePaddle/PaddleGAN/blob/develop/docs/en_US/tutorials/wav2lip.md

而且！！！万能的Wav2lip模型适用于任何人脸、任何语音、任何语言！对任意语音及视频都能达到很好的融合，达到逼真的效果！

还在担心不会使用？

PaddleGAN团队为大家在AI Studio上准备了对应的公开项目，里面包含了完整的实现步骤及代码，AI Studio的免费算力助力大家体验「告白」视频的制作，让你轻轻松松获得「芳心」！

贴心的传送门：

https://aistudio.baidu.com/aistudio/projectdetail/1542850

项目的具体详细介绍如下：

1.下载PaddleGAN并安装所需依赖

# 进入工作目录
%cd /home/aistudio/work
# 从github上克隆PaddleGAN代码（如下载速度过慢，可用gitee源）
!git clone https://gitee.com/PaddlePaddle/PaddleGAN
#或者使用 !git clone https://github.com/PaddlePaddle/PaddleGAN
# 安装所需安装包
!mkdir sndfile
%cd sndfile
!wget http://www.mega-nerd.com/libsndfile/files/libsndfile-1.0.28.tar.gz
!tar xzvf libsndfile-1.0.28.tar.gz
%cd libsndfile-1.0.28
!./configure --prefix=/home/aistudio/build_libs CFLAGS=-fPIC --enable-shared 
!make
!make install
%cd /home/aistudio/work/PaddleGAN
!pip install -r requirements.txt
%cd applications/

2.执行唇形合成命令

!export PYTHONPATH=$PYTHONPATH:/home/aistudio/work/PaddleGAN && python tools/wav2lip.py --face /home/aistudio/work/jieyi13s.mp4 --audio /home/aistudio/work/gaobai12s.m4a --outfile pp_gaobai_jieyi.mp4

具体的参数使用说明如下：

face: 原始idol人脸视频，视频中的idol的唇形将根据台词音频进行唇形合成--即，想让谁说情话

audio：驱动唇形合成的告白台词音频，视频中的idol将根据此音频进行唇形合成--即，想听idol说什么

重点来啦！！本项目支持大家上传idol或自己的人脸素材视频，以及告白台词音频，合成任意想要的情话/情歌告白视频！！

只需在命令中的face参数和audio参数分别换成自己的人脸素材视频和告白台词音频路径，然后运行命令，就可以生成和台词音频同步的idol告白视频。

程序运行完成后，会在当前文件夹下生成文件名为outfile参数指定的idol告白视频文件，该文件即为和台词音频同步的idol告白视频文件。本项目中提供了demo展示所用到的idol人脸视频和告白台词音频文件。

看到这里，各位有没有心动了呢～

要是以为PaddleGAN只能帮你「告白成功」，那你就大错特错啦！！

免费开源的宝藏套件PaddleGAN的能力当然不止于唇形迁移/生成的技术，里面满满都是种类丰富、趣味十足的图像/视频生成、处理能力，等待大家探索~

如图像风格迁移、视频修复、图像超分辨率、人像动漫化、照片动漫化、人脸编辑等等！！

PaddleGAN就如一个「游乐场」，欢迎各位「玩家」加入，体验各类「游戏设施」，无需门票，如果玩得开心，记得点Star支持下~

点击文末"阅读原文"，立即star！

https://github.com/PaddlePaddle/PaddleGAN

如在使用过程中有问题，可加入PaddleGAN官方微信群：

飞桨(PaddlePaddle)以百度多年的深度学习技术研究和业务应用为基础，是中国首个开源开放、技术领先、功能完备的产业级深度学习平台，包括飞桨开源平台和飞桨企业版。飞桨开源平台包含核心框架、基础模型库、端到端开发套件与工具组件，持续开源核心能力，为产业、学术、科研创新提供基础底座。飞桨企业版基于飞桨开源平台，针对企业级需求增强了相应特性，包含零门槛AI开发平台EasyDL和全功能AI开发平台BML。EasyDL主要面向中小企业，提供零门槛、预置丰富网络和模型、便捷高效的开发平台；BML是为大型企业提供的功能全面、可灵活定制和被深度集成的开发平台。

END