数字人算法~SadTalker&&Wav2Lip

whaosoft143

已于 2023-11-08 01:01:05 修改

阅读量1.6k

点赞数 2

分类专栏：人工智能文章标签：人工智能

于 2023-11-08 00:52:57 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_29788741/article/details/134279543

版权

详解经典2D数字人算法SadTalker和Wav2Lip技术原理。

最近两年，数字人受到越来越多人的关注。数字人可分为3D和2D。3D的话比较出名的是虚幻引擎的meta human，背后的技术涉及到blendshape等等。而本文将介绍两个比较知名的2D数字人算法，分别是SadTalker和Wav2Lip。另外，最近泰勒斯威夫特说中文的视频很火，据说背后用到的算法之一是GeneFace++，不过限于篇幅和它的前提知识比较多，本文暂时不讲。

2D数字人根据输入类型的不同，还可以进一步分为视频+音频，wav2lip和geneface属于这一类，这一类算法只生成新的口型，另一类的输入是图片+音频，sadtalker属于这一类，这一类不仅生成新的口型，还生成头部运动，复杂度较高。

Wav2Lip技术原理

论文：《A Lip Sync Expert Is All You Need for Speech to Lip Generation In the Wild》

http://cdn.iiit.ac.in/cdn/cvit.iiit.ac.in/images/Projects/Speech-to-Lip/paper.pdf

官方代码：https://github.com/Rudrabha/Wav2Lip

wav2lip采用的是GAN的训练范式，但它一共有1个生成器（下图左边大框，Generator）和2个判别器（下图右边两个小框，分别是pre-trained lip-sync expert和visual quality discriminator）。

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。