AI绘画Stable Diffusion无需花钱，只需一段很短的视频，就可以克隆一个你专属的数字人！（附资料）

最新推荐文章于 2024-08-08 10:39:19 发布

程序员晓晓

最新推荐文章于 2024-08-08 10:39:19 发布

阅读量836

点赞数 24

文章标签： AI作画 stable diffusion 音视频人工智能 AIGC AI绘画干货分享

本文链接：https://blog.csdn.net/cxyxx12/article/details/138704381

版权

大家好，我是程序员晓晓

今天，我给大家安利一个wav2lip插件。有了这个插件，只需一段视频，就能得到一个更真实的数字人。（插件获取请看文末扫描获取）

话不多说，我们先来看看效果：

在这里插入图片描述

生成效果

（视频由AI生成，请谨慎甄别）

这可比图片说话更高级了吧？而且身体是会动的，如果把参数调得更好一些，那么真的可以以假乱真。小伙伴们可能就会好奇了，具体是怎么做到的呢？请接着往下看。

使用

在开始之前，我们要先有Stable Diffusion，在往期文章中，我专门写了一篇的文章AI绘画喂饭级系列教程：Stable Diffusion本地部署，请看文末扫描即可获取。

所需模型

一、wav2lip插件

启动Stable Diffusion后，在扩展菜单里, 找到“ 可下载 ”标签，输入" wav2lip "，点击“ 安装”：

安装后，来到“已安装”标签，点击“应用更改并重启”。

安装过程中，如遇到无法安装onnxruntime：

stderr: ERROR: Could not install packages due to an OSError: [WinError 5] 拒绝访问。: ‘D:\StableDiffusion\sd-webui-aki-v4.6.1\python\Lib\site-packages\onnxruntime\capi\onnxruntime_providers_shared.dll’```*** Consider using the --user option or check the permissions.`

可以通过SD启动器内置的环境维护进行手动安装：

重启后，就能看到"Wav2lip Studio"的菜单：

二、所需模型

安装完插件后，暂时还不能立即使用的，因为还需要下载对应的模型。下方表格就是全部所需的模型，包含了模型名称、明星描述、以及存放的位置。贴心的我早已为大家准备好了模型，文末会给大家提供，这里先接着往下看。

模型	描述	存放目录
Wav2Lip	高精度的唇同步	extensions\sd-wav2lip-uhq\scripts\wav2lip\checkpoints\
Wav2Lip + GAN	嘴唇同步稍差，但视觉质量更好	extensions\sd-wav2lip-uhq\scripts\wav2lip\checkpoints\
s3fd	人脸检测预训练模型	extensions\sd-wav2lip-uhq\scripts\wav2lip\face_detection\detection\sfd\s3fd.pth
landmark predicator	Dlib 68点人脸特征推测	extensions\sd-wav2lip-uhq\scripts\wav2lip\predicator\shape_predictor_68_face_landmarks.dat
face swap model	face swap换脸所用模型	extensions\sd-wav2lip-uhq\scripts\faceswap\model\inswapper_128.onnx

步骤说明

首先，我们打开"Wav2lip Studio"的菜单：

打开后可以看到以下界面，整体可以分为三部分。一是人物来源，可通过上传视频或图片；二是声音来源，可通过文字生成或上传音频；最后就是生成效果。

为了达到更好的数字人效果，人物来源首选是视频，模型选择 wav2lip_gan，Wav2Lip-GAN相对于Wav2Lip的主要区别在于它引入了生成对抗网络来进一步提升生成视频的视觉质量。这使得Wav2Lip-GAN在视觉质量上可能更胜一筹，但两者在唇形同步的准确性上可能相差不大。

面部修复部分，我这里选择CodeFormer，这里没有强制要求，如果有不知道选哪个的小伙伴，可查看下面的表述：

CodeFormer 是一种基于Transformer的图像修复模型，它结合了卷积神经网络和Transformer的优点，通过自注意力机制捕捉图像的全局上下文信息。CodeFormer采用编码器-解码器结构，其中编码器负责提取图像特征，解码器则负责根据提取的特征进行图像修复。CodeFormer在面部修复任务中取得了显著的成果，尤其擅长处理受损或缺失的面部图像部分。

GFPGAN (Generative Facial Prior GAN) 是一种先进的AI模型，旨在通过利用预训练人脸GAN中蕴含的丰富多样经验来解决真实世界的盲目人脸修复挑战。GFPGAN利用预训练的面部GAN模型来处理人脸细节的潜在向量特征，生成具备真实性但细节不完善的图像。GFPGAN在处理人脸修复时，特别关注于恢复逼真和可信的细节，适用于从非常低质量的输入中恢复高度逼真的人脸图像

接下来到了声音来源部分，这里我选择上传一段录制好的音频。

最后点击生成即可，生成效果如下：

总结

总体来说，wav2lip插件生成视频，整体也简单易用，唇形与音频同步并且整体效果都还算令人满意。对于生成一个自己专属的数字人来说，是一个不错的免费方案。

Wav2Lip和SadTalker两个模型之间的主要区别却下：

模型	Wav2Lip	SadTalker
技术基础	使用生成对抗网络（GAN）进行训练。	结合3D人脸模型（3DMM）、ExpNet和PoseVAE以及3D面部渲染器。
生成内容	主要生成与语音同步的唇形。	生成口型和头部运动，提供更全面的面部动画。
判别器数量	包含两个判别器：唇音同步专家判别器和视觉质量判别器。	不明确提及判别器的使用，重点在于3D系数的生成和渲染。
训练方式	利用GAN进行训练，生成器和判别器相互竞争以提高生成质量。	通过3D面部渲染器和特定的网络结构学习音频与面部动画的映射。
应用场景	更适合需要高唇形同步精度的视频生成。	适用于需要复杂面部表情和头部动作的场景。
自定义选项	主要关注唇形生成，自定义选项可能较少。	提供更多自定义选项，如头部姿态和表情的调整。
复杂度	相对较低，主要处理唇部区域。	更高，因为需要处理整个面部和头部的运动。
实时性	可能更适合实时应用，由于其较低的复杂度。	可能需要更多的计算资源，对实时性的要求更高。
视觉质量	生成的唇形视频质量高，特别是当源素材质量好的时候。	能够生成具有丰富细节和真实感的面部动画视频。
开源资源	有开源的实现和预训练模型。	也有开源的实现，便于研究者和开发者使用和参考。
用户选择依据	如果主要关注唇形同步，Wav2Lip是一个很好的选择。	如果需要更复杂和逼真的面部动画，包括头部运动，SadTalker可能更适合。

最后，wav2lip插件请看下方扫描获取哦

写在最后

感兴趣的小伙伴，赠送全套AIGC学习资料，包含AI绘画、AI人工智能等前沿科技教程和软件工具，具体看这里。

AIGC技术的未来发展前景广阔，随着人工智能技术的不断发展，AIGC技术也将不断提高。未来，AIGC技术将在游戏和计算领域得到更广泛的应用，使游戏和计算系统具有更高效、更智能、更灵活的特性。同时，AIGC技术也将与人工智能技术紧密结合，在更多的领域得到广泛应用，对程序员来说影响至关重要。未来，AIGC技术将继续得到提高，同时也将与人工智能技术紧密结合，在更多的领域得到广泛应用。

在这里插入图片描述