关乎人文,以化成天下
敦煌博物馆里,数字技术让一尊尊彩塑容颜常驻;电视剧《觉醒年代》,百年前的革命志士与屏幕前的我们跨时空对话;舞蹈诗剧《只此青绿》,用舞台重现大宋美学,为观众开启沉浸式“赏画”体验,以上种种,无一不在生动诠释着人文的“以化成天下”。本次社会实践,我们将着重研究“文学”与“科技”之化。
文学与AI的碰撞
不知大家是否听说过大谷老师,音乐人、《漫展模拟器》的制作人、一位热衷于AI绘画的编程者、一位不断超越自己、玩转AI的独立艺术家。
图1.大谷老师社交官方头像
前不久,大谷老师利用深度学习技术使宋代诗人苏轼“活”过来,穿越千年,为我们声情并茂诵其诗词,使无数人大为震撼!这虽然不是AI与文化的第一次结合,但在AI领域、在艺术领域,都荡起了不浅的水花。
探索
深度学习,是机器学习领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能(AI)。
GAN--生成对抗网络,被“卷积网络之父”Yann LeCun(杨立昆)誉为「过去十年计算机科学领域最有趣的想法之一」,是近年来火遍全网,AI研究者最为关注的深度学习技术方向之一。
PaddleGAN,全称飞桨生成对抗网络开发套件,为开发者提供经典及前沿的生成对抗网络高性能实现,并支撑开发者快速构建、训练及部署生成对抗网络,以供学术、娱乐及产业应用。
下面是我们摸索中,利用百度飞桨AI Studio平台进行深度学习,从而得到的元代诗人、词人念诗的视频成果。猜猜都是哪几位诗词大家叭~
元朝合集
Wav2lip模型原理
Wav2lip实现唇形与语音精准同步突破的关键在于,它采用了唇形同步判别器,以强制生成器持续产生准确而逼真的唇部运动。
此外,该研究通过在鉴别器中,使用多个连续帧而不是单个帧,并使用视觉质量损失(而不仅仅是对比损失)来考虑时间相关性,从而改善了视觉质量。
wav2lip模型几乎是万能的,适用于任何人脸、任何语音、任何语言,对任意视频都能达到很高的准确率,可以无缝地与原始视频融合,还可以用于转换动画人脸,并且导入合成语音也是可行的。
Wav2Lip生成唇形同步视频的过程如图5所示,主要包含如下6个步骤:
1.数据处理:
根据网络接收的数据格式,完成相应的预处理操作,保证模型正常读取;
2.模型构建:
设计Wav2Lip网络结构;
3.模型配置:
实例化模型,指定学习率和优化器;
4.模型训练:
执行多轮训练不断调整参数,以达到较好的效果;
5.模型保存:
将模型参数保存到指定位置,便于后续推理使用;
6.模型推理及可视化:
使用训练好的模型将视频人物的唇形和输入语音同步,并可视化推理结果。
Wav2lip的使用三步曲
1.安装Paddle环境并下载PaddleGAN
2.选择想要「配音/对口型」的对象以及音频内容
3.运行代码并保存制作完成的对口型视频分享惊艳众人
整体技术原理
图6.技术原理(来自paddlepaddle生成虚拟主播技术)
总共需要调用三个模型,分别是First Order Motion(表情迁移)、Text to Speech(文本转语音)和Wav2Lip(唇形合成)。
具体技术步骤如下:
1.把图像放入First Order Motion模型进行面部表情迁移,让人物的表情更加逼近真人
2.通过Text to Speech模型,将输入的文字转换成音频输出。
3.得到面部表情迁移的视频和音频之后,通过Wav2Lip模型,将音频和视频合并,并根据音频内容调整唇形,使得人物更加接近真人效果。
代码可参考百度飞桨开源项目——PaddleHub元宇宙直通车:手把手教你造个虚拟数字人!