视频和音频合成视频Easy_Wav2Lip

Easy_Wav2Lip  是使用视频和音频合成新的视频
Easy-WAV2lip是目前最成熟的数字人口型算法。

用时以及效率来说,三大主流算法 WAV2lip、Geneface++、AD-Nerf。WAV2lip>Geneface++=AD-Nerf

1. 整体流程
第一步,加载视频/图片和音频/tts。用melspectrogram将wav文件拆分成mel_chunks。
第二步,调用face_detect模型,给出人脸检测结果(可以改造成从文件中读取),包装成4个数组batch:img_batch(人脸),mel_batch(语音),frame_batch(原图),coords_batch(坐标)
第三步,加载模型,进行计算。这个模型目前看下来就是简单的resnet,没有transfomer。另外mask也不是用分割模型,而是直接将图片下半部分全部作为mask😄,然后将mask图片拼接到原图片的色彩通道上作为输入。
第四步:预测出来的人脸拼接到原图上,输出位视频。

2. 优缺点
优点:极其简单,一个人脸检测模型+一个基于CNN的lipsync模型,速度很快。
缺点:嘴唇经常是歪的,而且有变形;牙齿不断在闪烁。

比sadtalker丝滑多了


软件包运行:go-web.bat    双击就可以了
 



运行成功,用浏览器打开:http://127.0.0.1:7860/
 



运行成功。
可以上传一段视频和音频试试
 


生成中

一分钟视频合成花了50分钟
看看效果

813



最后,推荐一个默认效果比较好的参数,大家也可以根据自己的素材自行调节:

视频质量选项:Enhanced
分辨率选项:full resolution
Wav2Lip版本选项:Wav2Lip
启动追踪旧数据:True
启用脸部平滑:True
嘴部上边缘:0
嘴部下边缘:10
嘴部左边缘:0
嘴部右边缘:0
Mask尺寸:1
Mask羽化:1
启用嘴部追踪:True
启用调试:False

参考视频:如何用自己的形象生成AI数字人,代替自己出镜创作短视频和直播?零成本干货教学!_哔哩哔哩_bilibili
资源包有:
ChatTTS增强版一件整合包
AI数字人生成工具
EchoMimic照片转视频等
还有各种常见的AI常用提示词,比如网文写作

总的链接放下面了
⚙️AI吧教学日记 · AI工具和教程分享⚙️ · 语雀
有需要的小伙伴可自行领取

================================
构建中国人自己的私人GPT
构建中国人自己的私人GPT - 神经网络 - 金双石科技 -
(出处: 金双石科技)

AI绘图软件stable-diffusion 3
AI绘图软件stable-diffusion 3 - 神经网络 - 金双石科技 -
(出处: 金双石科技)

AI绘图软件fooocus
AI绘图软件fooocus - 神经网络 - 金双石科技 -
(出处: 金双石科技)

文字生成语音1
文字生成语音1 - 神经网络 - 金双石科技 -
(出处: 金双石科技)

图片和音频合成数字人SadTalker
图片和音频合成数字人SadTalker - 神经网络 - 金双石科技 -
(出处: 金双石科技)

视频和音频合成视频Easy_Wav2Lip
视频和音频合成视频Easy_Wav2Lip - 神经网络 - 金双石科技 -
(出处: 金双石科技)

3D模型和音频合成数字人
3D模型和音频合成数字人 - 神经网络 - 金双石科技 -
(出处: 金双石科技)

实时智能应答3D数字人
实时智能应答3D数字人 - 神经网络 - 金双石科技 -
(出处: 金双石科技)

AI模型生成数字人DeepFaceLive
AI模型生成数字人DeepFaceLive - 神经网络 - 金双石科技 -
(出处: 金双石科技)

wav2lip codeformer是一种音频视频的合成技术。它结合了wav2lip模型和codeformer模型的优势。 首先,wav2lip模型是一个用于语音到唇形视频合成的神经网络模型。它采用一段音频作为输入,并生成与音频内容相对应的唇形视频。这个模型能够很好地捕捉到语音的特征,如语速、语调、情感等,并将这些特征转化为对应的唇形动画。 而codeformer模型是一种用于文本到视频合成的神经网络模型。它将文本作为输入,并生成对应的视频内容。这个模型能够理解文本的语义、逻辑和情感,并将其转化为视觉效果。 wav2lip codeformer则将这两个模型结合起来,实现了从音频视频的合成过程。它首先使用wav2lip模型将音频转化为唇形视频,然后将这个视频作为输入传递给codeformer模型。codeformer模型根据视频中唇形的动画和音频的内容,生成一个更加精细的、符合语义和逻辑的视频wav2lip codeformer在很多应用场景中都能发挥重要作用。比如,在电影制作中,可以使用这个技术为人物角色添加对话或修复语音与唇形不对应的问题。此外,在虚拟现实和增强现实领域,这个技术也能用于语音合成和人机交互,使得虚拟角色能够更加自然地表现出唇形动画。 总之,wav2lip codeformer是一种能够实现音频视频合成的技术,结合了wav2lip模型和codeformer模型的优点,具备广泛的应用前景。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

金双石的小墨

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值