数字人算法~SadTalker&&Wav2Lip

详解经典2D数字人算法SadTalker和Wav2Lip技术原理。

最近两年,数字人受到越来越多人的关注。数字人可分为3D和2D。3D的话比较出名的是虚幻引擎的meta human,背后的技术涉及到blendshape等等。而本文将介绍两个比较知名的2D数字人算法,分别是SadTalker和Wav2Lip。另外,最近泰勒斯威夫特说中文的视频很火,据说背后用到的算法之一是GeneFace++,不过限于篇幅和它的前提知识比较多,本文暂时不讲。

2D数字人根据输入类型的不同,还可以进一步分为视频+音频,wav2lip和geneface属于这一类,这一类算法只生成新的口型,另一类的输入是图片+音频,sadtalker属于这一类,这一类不仅生成新的口型,还生成头部运动,复杂度较高。

Wav2Lip技术原理

论文:《A Lip Sync Expert Is All You Need for Speech to Lip Generation In the Wild》

http://cdn.iiit.ac.in/cdn/cvit.iiit.ac.in/images/Projects/Speech-to-Lip/paper.pdf

官方代码:https://github.com/Rudrabha/Wav2Lip

wav2lip采用的是GAN的训练范式,但它一共有1个生成器(下图左边大框,Generator)和2个判别器(下图右边两个小框,分别是pre-trained lip-sync expert和visual quality discriminator)。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值