Musetalk:是一个在潜在空间中训练的实时高质量音频驱动的口型同步模型ft-mse-vae,其中
⦁ 根据输入的音频,修改未见过的脸部,脸部区域的大小为256 x 256。
⦁ 支持中文、英文、日文等多种语言的音频。
⦁ 在 NVIDIA Tesla V100 上支持 30fps+ 的实时推理。
⦁ 支持修改脸部区域的中心点,这显著影响生成结果。检检查点可在 HDTF 数据集上进行训练。
MuseTalk 在潜在空间中进行训练,其中图像由冻结 VAE 编码。音频由冻结whisper-tiny模型编码。生成网络的架构借鉴了 的 UNet stable-diffusion-v1-4,其中音频嵌入通过交叉注意与图像嵌入融合。
使用与稳定扩散非常相似的架构,但 MuseTalk 的独特之处在于它不是扩散模型。相反,MuseTalk 通过在潜在空间中一步完成修复来运行。
测试一下效果!
先安装环境和配置:
要准备 Python 环境并安装附加软件包(如 opencv、diffusers、mmcv 等),请按照以下步骤操作:
构建环境
建议python版本> = 3.10,cuda版本= 11.7。然后按如下方式构建环境:
pip install -r requirements.txt
mmlab 软件包
pip install --no-cache-dir -U openmim
mim install mmengine
mim install "mmcv>=2.0.1"
mim install "mmdet>=3.1.0"
mim install "mmpose>=1.1.0"
下载 ffmpeg-static
下载 ffmpeg-static 和
export FFMPEG_PATH=/path/to/ffmpeg
例如:
export FFMPEG_PATH=/musetalk/ffmpeg-4.4-amd64-static
下载权重
您可以按如下方式手动下载权重:
⦁ 下载我们训练的权重。
⦁ 下载其他组件的权重:
sd-vae-ft-mse
耳语
假设
人脸解析⦁ -bisent
resnet18
models最后,weight应按如下方式组织:
./models/
├── musetalk
│ └── musetalk.json
│ └── pytorch_model.bin
├── dwpose
│ └── dw-ll_ucoco_384.pth
├── face-parse-bisent
│ ├── 79999_iter.pth
│ └── resnet18-5c106cde.pth
├── sd-vae-ft-mse
│ ├── config.json
│ └── diffusion_pytorch_model.bin
└── whisper
└── tiny.pt
python -m scripts.inference --inference_config configs/inference/test.yaml
configs/inference/test.yaml 是推理配置文件的路径,包括 video_path 和 audio_path。video_path 应该是视频文件、图像文件或图像目录。
建议输入与25fps训练模型时相同的 fps 的视频。如果您的视频远低于 25fps,建议您应用帧插值或直接使用 ffmpeg 将视频转换为 25fps。
视频和环境都已经标准化了。我们开始推理一下看看效果:
效果:
总结:Musetalk有着较强的稳定性,可适应大幅度的人物动作进行推理,并且有着稳定的效果。
关注我们,AI时代快人一步。懒得搜索的,私信主页【数字人】即可获取数字人工具。