数字人声唇同步:MuseTalk模型在多语言实时面部动画中的应用“

Musetalk:是一个在潜在空间中训练的实时高质量音频驱动的口型同步模型ft-mse-vae,其中
⦁    根据输入的音频,修改未见过的脸部,脸部区域的大小为256 x 256。
⦁    支持中文、英文、日文等多种语言的音频。
⦁    在 NVIDIA Tesla V100 上支持 30fps+ 的实时推理。
⦁    支持修改脸部区域的中心点,这显著影响生成结果。检检查点可在 HDTF 数据集上进行训练。

MuseTalk 在潜在空间中进行训练,其中图像由冻结 VAE 编码。音频由冻结whisper-tiny模型编码。生成网络的架构借鉴了 的 UNet stable-diffusion-v1-4,其中音频嵌入通过交叉注意与图像嵌入融合。
使用与稳定扩散非常相似的架构,但 MuseTalk 的独特之处在于它不是扩散模型。相反,MuseTalk 通过在潜在空间中一步完成修复来运行。

测试一下效果!
先安装环境和配置:

要准备 Python 环境并安装附加软件包(如 opencv、diffusers、mmcv 等),请按照以下步骤操作:

构建环境
建议python版本> = 3.10,cuda版本= 11.7。然后按如下方式构建环境:
pip install -r requirements.txt
mmlab 软件包
pip install --no-cache-dir -U openmim 
mim install mmengine 
mim install "mmcv>=2.0.1" 
mim install "mmdet>=3.1.0" 
mim install "mmpose>=1.1.0" 
下载 ffmpeg-static
下载 ffmpeg-static 和
export FFMPEG_PATH=/path/to/ffmpeg
例如:
export FFMPEG_PATH=/musetalk/ffmpeg-4.4-amd64-static

下载权重
您可以按如下方式手动下载权重:

⦁    下载我们训练的权重。
⦁    下载其他组件的权重:

sd-vae-ft-mse
耳语
假设
人脸解析⦁    -bisent
resnet18
models最后,weight应按如下方式组织:
./models/
├── musetalk
│   └── musetalk.json
│   └── pytorch_model.bin
├── dwpose
│   └── dw-ll_ucoco_384.pth
├── face-parse-bisent
│   ├── 79999_iter.pth
│   └── resnet18-5c106cde.pth
├── sd-vae-ft-mse
│   ├── config.json
│   └── diffusion_pytorch_model.bin
└── whisper
    └── tiny.pt

python -m scripts.inference --inference_config configs/inference/test.yaml 
configs/inference/test.yaml 是推理配置文件的路径,包括 video_path 和 audio_path。video_path 应该是视频文件、图像文件或图像目录。
建议输入与25fps训练模型时相同的 fps 的视频。如果您的视频远低于 25fps,建议您应用帧插值或直接使用 ffmpeg 将视频转换为 25fps。
视频和环境都已经标准化了。我们开始推理一下看看效果:

效果:

总结:Musetalk有着较强的稳定性,可适应大幅度的人物动作进行推理,并且有着稳定的效果。

关注我们,AI时代快人一步。懒得搜索的,私信主页【数字人】即可获取数字人工具。

  • 6
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
博客
sdadsad
11-23 30
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值