大家好,我是程序员晓晓
今天,我给大家安利一个wav2lip插件。有了这个插件,只需一段视频,就能得到一个更真实的数字人。(插件获取请看文末扫描获取)
话不多说,我们先来看看效果:
生成效果
(视频由AI生成,请谨慎甄别)
这可比图片说话更高级了吧?而且身体是会动的,如果把参数调得更好一些,那么真的可以以假乱真。小伙伴们可能就会好奇了,具体是怎么做到的呢?请接着往下看。
使用
在开始之前,我们要先有Stable Diffusion,在往期文章中,我专门写了一篇的文章AI绘画喂饭级系列教程:Stable Diffusion本地部署,请看文末扫描即可获取。
所需模型
一、wav2lip插件
启动Stable Diffusion后,在扩展菜单里, 找到“ 可下载 ”标签,输入" wav2lip ",点击“ 安装”:
安装后,来到“已安装”标签,点击“应用更改并重启”。
安装过程中,如遇到无法安装onnxruntime:
stderr: ERROR: Could not install packages due to an OSError: [WinError 5] 拒绝访问。: ‘D:\StableDiffusion\sd-webui-aki-v4.6.1\python\Lib\site-packages\onnxruntime\capi\onnxruntime_providers_shared.dll’```*** Consider using the
--user
option or check the permissions.`
可以通过SD启动器内置的环境维护进行手动安装:
重启后,就能看到"Wav2lip Studio"的菜单:
二、所需模型
安装完插件后,暂时还不能立即使用的,因为还需要下载对应的模型。下方表格就是全部所需的模型,包含了模型名称、明星描述、以及存放的位置。贴心的我早已为大家准备好了模型,文末会给大家提供,这里先接着往下看。
模型 | 描述 | 存放目录 |
---|---|---|
Wav2Lip | 高精度的唇同步 | extensions\sd-wav2lip-uhq\scripts\wav2lip\checkpoints\ |
Wav2Lip + GAN | 嘴唇同步稍差,但视觉质量更好 | extensions\sd-wav2lip-uhq\scripts\wav2lip\checkpoints\ |
s3fd | 人脸检测预训练模型 | extensions\sd-wav2lip-uhq\scripts\wav2lip\face_detection\detection\sfd\s3fd.pth |
landmark predicator | Dlib 68点人脸特征推测 | extensions\sd-wav2lip-uhq\scripts\wav2lip\predicator\shape_predictor_68_face_landmarks.dat |
face swap model | face swap换脸所用模型 | extensions\sd-wav2lip-uhq\scripts\faceswap\model\inswapper_128.onnx |
步骤说明
首先,我们打开"Wav2lip Studio"的菜单:
打开后可以看到以下界面,整体可以分为三部分。一是人物来源,可通过上传视频或图片;二是声音来源,可通过文字生成或上传音频;最后就是生成效果。
为了达到更好的数字人效果,人物来源首选是视频,模型选择 wav2lip_gan,Wav2Lip-GAN相对于Wav2Lip的主要区别在于它引入了生成对抗网络来进一步提升生成视频的视觉质量。这使得Wav2Lip-GAN在视觉质量上可能更胜一筹,但两者在唇形同步的准确性上可能相差不大。
面部修复部分,我这里选择CodeFormer,这里没有强制要求,如果有不知道选哪个的小伙伴,可查看下面的表述:
CodeFormer 是一种基于Transformer的图像修复模型,它结合了卷积神经网络和Transformer的优点,通过自注意力机制捕捉图像的全局上下文信息。CodeFormer采用编码器-解码器结构,其中编码器负责提取图像特征,解码器则负责根据提取的特征进行图像修复。CodeFormer在面部修复任务中取得了显著的成果,尤其擅长处理受损或缺失的面部图像部分。
GFPGAN (Generative Facial Prior GAN) 是一种先进的AI模型,旨在通过利用预训练人脸GAN中蕴含的丰富多样经验来解决真实世界的盲目人脸修复挑战。GFPGAN利用预训练的面部GAN模型来处理人脸细节的潜在向量特征,生成具备真实性但细节不完善的图像。GFPGAN在处理人脸修复时,特别关注于恢复逼真和可信的细节,适用于从非常低质量的输入中恢复高度逼真的人脸图像
接下来到了声音来源部分,这里我选择上传一段录制好的音频。
最后点击生成即可,生成效果如下:
总结
总体来说,wav2lip插件生成视频,整体也简单易用,唇形与音频同步并且整体效果都还算令人满意。对于生成一个自己专属的数字人来说,是一个不错的免费方案。
Wav2Lip和SadTalker两个模型之间的主要区别却下:
模型 | Wav2Lip | SadTalker |
---|---|---|
技术基础 | 使用生成对抗网络(GAN)进行训练。 | 结合3D人脸模型(3DMM)、ExpNet和PoseVAE以及3D面部渲染器。 |
生成内容 | 主要生成与语音同步的唇形。 | 生成口型和头部运动,提供更全面的面部动画。 |
判别器数量 | 包含两个判别器:唇音同步专家判别器和视觉质量判别器。 | 不明确提及判别器的使用,重点在于3D系数的生成和渲染。 |
训练方式 | 利用GAN进行训练,生成器和判别器相互竞争以提高生成质量。 | 通过3D面部渲染器和特定的网络结构学习音频与面部动画的映射。 |
应用场景 | 更适合需要高唇形同步精度的视频生成。 | 适用于需要复杂面部表情和头部动作的场景。 |
自定义选项 | 主要关注唇形生成,自定义选项可能较少。 | 提供更多自定义选项,如头部姿态和表情的调整。 |
复杂度 | 相对较低,主要处理唇部区域。 | 更高,因为需要处理整个面部和头部的运动。 |
实时性 | 可能更适合实时应用,由于其较低的复杂度。 | 可能需要更多的计算资源,对实时性的要求更高。 |
视觉质量 | 生成的唇形视频质量高,特别是当源素材质量好的时候。 | 能够生成具有丰富细节和真实感的面部动画视频。 |
开源资源 | 有开源的实现和预训练模型。 | 也有开源的实现,便于研究者和开发者使用和参考。 |
用户选择依据 | 如果主要关注唇形同步,Wav2Lip是一个很好的选择。 | 如果需要更复杂和逼真的面部动画,包括头部运动,SadTalker可能更适合。 |
最后,wav2lip插件请看下方扫描获取哦
写在最后
感兴趣的小伙伴,赠送全套AIGC学习资料,包含AI绘画、AI人工智能等前沿科技教程和软件工具,具体看这里。
AIGC技术的未来发展前景广阔,随着人工智能技术的不断发展,AIGC技术也将不断提高。未来,AIGC技术将在游戏和计算领域得到更广泛的应用,使游戏和计算系统具有更高效、更智能、更灵活的特性。同时,AIGC技术也将与人工智能技术紧密结合,在更多的领域得到广泛应用,对程序员来说影响至关重要。未来,AIGC技术将继续得到提高,同时也将与人工智能技术紧密结合,在更多的领域得到广泛应用。
一、AIGC所有方向的学习路线
AIGC所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。
二、AIGC必备工具
工具都帮大家整理好了,安装就可直接上手!
三、最新AIGC学习笔记
当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。
四、AIGC视频教程合集
观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
五、实战案例
纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。