Stable Diffusion｜Wav2Lip数字人制作全流程分享

程序员小猴紫

已于 2024-12-29 11:37:39 修改

阅读量2.4k

点赞数 14

分类专栏： StableDiffusion教程 AI绘画文章标签： stable diffusion 人工智能 AI作画 AI绘画 AIGC

于 2024-08-08 10:39:19 首次发布

本文链接：https://blog.csdn.net/m0_74942241/article/details/141020421

版权

AI绘画同时被 2 个专栏收录

431 篇文章

订阅专栏

StableDiffusion教程

402 篇文章

订阅专栏

今天分享一个用Stable Diffusion零成本制作属于自己的数字人的教程。在这个充满创新与科技魅力的时代，每个人拥有自己的数字分身已经不再是遥不可及的事情了，而是触手可及的现实。

在这里插入图片描述

本文将会用到Stable Diffusion、Wav2Lip插件以及剪映。

Wav2Lip插件地址：https://github.com/numz/sd-wav2lip-uhq

Wav2Lip插件安装

在开始安装Wav2Lip插件之前，我们需要先进行一些准备工作。首先，确保Stable Diffusion已经升级到最新版本。其次，安装Wav2Lip所需的环境“FFmpeg”。最后，下载并安装所需的模型。

使用Wac2Lip插件，我们需要预先安装好“FFmpeg”：

打开“FFmpeg”官网（https://ffmpeg.org/download.html），滑到下方在“Get packages & executable files”选择你的操作系统。（网络不太稳定的，文末提供下载链接）

这里以Windows为例，选择Windows的图标，然后点击第一个选项“Windows builds from gyan.dev”。

打开第一个选项之后，滑到下方，点击下载“ffmpeg-git-essentials.7z”文件。下载完成之后，可以解压到当前文件，或者解压到一个全英文的文件夹里面即可。

下载完成之后，就需要将“FFmpeg”添加到环境变量设置中。在“此电脑”图标上右击并点击“属性”，然后在右侧“相关设置”点击“高级系统设置”打开“系统属性”面板。

点击下方的“环境变量”，打开环境变量面板，然后在上方的“用户变量”，点击“Path”并点击“编辑”按钮。

在“编辑环境变量”面板中，点击“新建”，然后在点击“预览”，找到刚刚下载好并解压好的文件夹下的“bin”文件夹，然后点击“确定”即可。

FFmpeg添加完之后，打开“终端”，执行“ffmpeg”命令。执行“ffmpeg”后，如果出现以下信息，说明ffmpeg安装成功。

以上环境设置好之后，就可以打开Stable Diffusion安装“Wav2Lip”插件啦。

插件安装

对了，在安装之前，记得先去Github下载“Wav2Lip”模型。（网络不太稳定的，文末提供下载链接）

模型下载好之后，打开“Stable Diffusion”，点击“扩展”-“从网址安装”，然后将插件的URL粘贴到“扩展的git仓库网址”下并点击“安装”即可。

插件安装完成之后，关闭Stable Diffusion，将刚刚下载好的模型放到对应的文件夹里面，然后再重新打开“Stable Diffusion”，在上方就可以看到“Wav2Lip”插件啦。

Tips：如果需要使用“换脸”，需要安装和下载“FaceSwap”的模型以及环境。

模型在刚刚下载“Wav2Lip”模型下方就有换脸模型可以下载，下载完放到对应的文件夹即可。

数字人制作

以上的内容设置完成之后，就可以开始制作数字人啦！

点击“Wav2Lip Studio”插件，然后上传一段每帧都包含人脸的视频（avi格式或者mp4格式均可，上传的视频一定要每帧都有人脸，如果有一帧没有人脸，就会报错），如果需要换脸的，可以在“Face Swap”框内上传一张有脸部的图片。（如果你上传的是avi文件，在界面上你看不见它，但不用担心，插件会正常处理视频。）

如果想用一张照片生成数字人，可以先将照片导入到剪映里面，然后设置时长，导出即可。

1.1 打开“剪映”，点击“开始创作”，然后将照片导入到剪映，设置一下照片的时长。

1.2 设置好之后，点击左上角的“文件”-“导出”，导出“MP4”格式即可。

准备一段音频并上传。

如果没有音频，可以用“Wav2Lip”插件里面的“bark”插件生成音频，也可以用前面分享过的“TTSmake”生成音频，当然啦，也可以用“剪映”。下面介绍一下用“Wav2Lip”插件里面的“bark”插件生成音频。

2.1 选择“语言”、“性别”以及“朗读者”。在“底显存模型”下如果显卡内存低于16GB，勾选“是”即可。（在“Audio example”可以试听朗读者的声音）。

2.2 将需要朗读的文本粘贴到“提示词”的框内。

注意：bark一次只能生成14秒以内的音频，如果一句话超过了14秒，就需要使用[split]进行分割。

例如：“文本文本文本文本[split]文本文本文本文本”。

2.3 “Generation temperature” 参数为0.0时更接近声音，1.0更有创意。0.0会产生一些奇怪的结果，而1.0则与声音相距甚远。0.7是“bark”设置的默认值，可以自己尝试微调一下以达到效果更佳。

2.4 Silence是在用[split]分割后的停顿时间，默认是0.25。设置好以上的参数之后，点击“生成”就可以生成音频啦。

关于bark更多的使用细节可以查看bark文档：https://github.com/suno-ai/bark/

选择一个模型，然后调整一下参数，然后点击“生成”即可。

模型我选择了“wav2lip_gan”，其他的参数我都保持了默认。模型这里如果要高精度的嘴唇同步，可以选择“wav2lip”模型，如果要视觉质量更好，嘴唇同步稍差可以选择“wav2lip_gan”。

生成视频需要等个几分钟，耐心等待一下。（根据不同时长的视频生成的时间不同）

，时长00:04

等了大概五六分钟，生成了一个4秒的视频。这是用“wav2lip_gan”模型生成的，接下来再用“wav2lip”模型试一下。

，时长00:04

我们可以看到，用“wav2lip_gan”模型生成的数字人，虽然在视觉上质量更好了，但是在嘴唇同步上稍微有一些差，然后“wav2lip”模型生成的则是嘴唇同步的很好，而视觉质量则更差。这里用的都是默认的参数，再调一下参数，效果会更好。

参数介绍

Resize Factor：这是一个用于调整视频分辨率的参数。例如，如果resize factor设置为0.5，那么视频的分辨率将被降低为原来的一半。
Mouth Mask Dilate：这个是用于控制嘴巴的覆盖区域。增加这个参数的值会使嘴巴的蒙版向外扩张，而减少这个参数的值则会使蒙版收缩，可以根据嘴巴的大小来作出调整。
Face Mask Erode：与上一个参数相反，这个参数是用于控制面部蒙版的腐蚀程度。增加这个参数的值会使面部蒙版向内收缩，而减少这个参数的值则会使蒙版扩张。
蒙版边缘模糊度：这个参数用于控制蒙版边缘的模糊程度，使其变得更平滑，建议尽量使该参数小于等于 “Mouth Mask Dilate”参数。
Code Former Fidelity：