数字人声唇同步：MuseTalk模型在多语言实时面部动画中的应用“

AI无忧秘书

于 2024-08-16 17:42:21 发布

阅读量248

点赞数 6

文章标签：人工智能

本文链接：https://blog.csdn.net/dsdxsd12138/article/details/141265652

版权

Musetalk：是一个在潜在空间中训练的实时高质量音频驱动的口型同步模型ft-mse-vae，其中
⦁   根据输入的音频，修改未见过的脸部，脸部区域的大小为256 x 256。
⦁   支持中文、英文、日文等多种语言的音频。
⦁   在 NVIDIA Tesla V100 上支持 30fps+ 的实时推理。
⦁   支持修改脸部区域的中心点，这显著影响生成结果。检检查点可在 HDTF 数据集上进行训练。

MuseTalk 在潜在空间中进行训练，其中图像由冻结 VAE 编码。音频由冻结whisper-tiny模型编码。生成网络的架构借鉴了的 UNet stable-diffusion-v1-4，其中音频嵌入通过交叉注意与图像嵌入融合。
使用与稳定扩散非常相似的架构，但 MuseTalk 的独特之处在于它不是扩散模型。相反，MuseTalk 通过在潜在空间中一步完成修复来运行。

测试一下效果！
先安装环境和配置：

要准备 Python 环境并安装附加软件包（如 opencv、diffusers、mmcv 等），请按照以下步骤操作：

构建环境
建议python版本> = 3.10，cuda版本= 11.7。然后按如下方式构建环境：
pip install -r requirements.txt
mmlab 软件包
pip install --no-cache-dir -U openmim 
mim install mmengine 
mim install "mmcv>=2.0.1" 
mim install "mmdet>=3.1.0" 
mim install "mmpose>=1.1.0" 
下载 ffmpeg-static
下载 ffmpeg-static 和
export FFMPEG_PATH=/path/to/ffmpeg
例如：
export FFMPEG_PATH=/musetalk/ffmpeg-4.4-amd64-static

下载权重
您可以按如下方式手动下载权重：

⦁ 下载我们训练的权重。
⦁ 下载其他组件的权重：

sd-vae-ft-mse
耳语
假设
人脸解析⦁    -bisent
resnet18
models最后，weight应按如下方式组织：
./models/
├── musetalk
│   └── musetalk.json
│   └── pytorch_model.bin
├── dwpose
│   └── dw-ll_ucoco_384.pth
├── face-parse-bisent
│   ├── 79999_iter.pth
│   └── resnet18-5c106cde.pth
├── sd-vae-ft-mse
│   ├── config.json
│   └── diffusion_pytorch_model.bin
└── whisper
    └── tiny.pt

python -m scripts.inference --inference_config configs/inference/test.yaml
configs/inference/test.yaml 是推理配置文件的路径，包括 video_path 和 audio_path。video_path 应该是视频文件、图像文件或图像目录。
建议输入与25fps训练模型时相同的 fps 的视频。如果您的视频远低于 25fps，建议您应用帧插值或直接使用 ffmpeg 将视频转换为 25fps。
视频和环境都已经标准化了。我们开始推理一下看看效果：

效果：

总结：Musetalk有着较强的稳定性，可适应大幅度的人物动作进行推理，并且有着稳定的效果。

关注我们，AI时代快人一步。懒得搜索的，私信主页【数字人】即可获取数字人工具。

AI无忧秘书

关注

6
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
数字人声唇同步：MuseTalk模型在多语言实时面部动画中的应用“

生成网络的架构借鉴了的 UNet stable-diffusion-v1-4，其中音频嵌入通过交叉注意与图像嵌入融合。使用与稳定扩散非常相似的架构，但 MuseTalk 的独特之处在于它不是扩散模型。Musetalk：是一个在潜在空间中训练的实时高质量音频驱动的口型同步模型ft-mse-vae，其中。总结：Musetalk有着较强的稳定性，可适应大幅度的人物动作进行推理，并且有着稳定的效果。⦁ 根据输入的音频，修改未见过的脸部，脸部区域的大小为256 x 256。⦁ 下载我们训练的权重。
复制链接

扫一扫