数字人开源代码运行---wav2lip

代码地址:

Rudrabha/Wav2Lip: This repository contains the codes of "A Lip Sync Expert Is All You Need for Speech to Lip Generation In the Wild", published at ACM Multimedia 2020. For HD commercial model, please try out Sync Labs (github.com)

论文地址:

2008.10010 (arxiv.org)

1、下载代码

2、安装环境

conda create -n wav2lip python==3.9.0
conda activate wav2lip
conda install ffmpeg

修改requirements.txt中依赖版本号为

安装依赖

pip install -r requirements.txt

2、下载模型

下载s3fd.pth模型,下载后放在face_detection/detection/sfd/s3fd.pth

项目地址中给出了训练好的模型链接,下载就可以了,四个下载后都放在checkpoints目录下。

3、推理

根据参考视频和音频生成对应的说话视频

python inference.py --checkpoint_path ./checkpoints/wav2lip_gan.pth --face ./demo/short_demo.mp4 --audio ./demo/test.wav

4、可能会遇到的问题:

issues中给出了答案:

修改audio.py 第一百行代码:
return librosa.filters.mel(sr=hp.sample_rate, n_fft=hp.n_fft, n_mels=hp.num_mels,
fmin=hp.fmin, fmax=hp.fmax)

Wav2Lip 报错TypeError: mel() takes 0 positional arguments but 2 positional arguments (and 3 keyword-only arguments) were given · Issue #634 · Rudrabha/Wav2Lip · GitHub

5、评价指标

evaluation目录中给出了Average Confidence,Average Minimum Distance评价指标的计算。利用的是syncnet项目计算。

参考:AI数字人:语音驱动人脸模型Wav2Lip-CSDN博客

  • 5
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值