Python输入音频wav同步嘴型源码方案

本文介绍了ACM MM2020发表的一项研究,提出了一种AI模型,能够实现音频与视频人物嘴型的完美匹配。通过预训练模型,可以将任意音频与视频进行唇形同步,适用于多国语言电影制作和虚拟主播等领域。文章提供了源码和使用技巧,包括调整人脸边界框、选择合适分辨率等,以优化结果。
摘要由CSDN通过智能技术生成

这是由ACM MM2020发表了的一篇论文,提出一个AI模型,只需要一段人物视频和一段目标语音,就能够让音频和视频合二为一,人物嘴型与音频完全匹配。

【订阅栏目 获取全部的源码方案】

选一张蒙娜丽莎的照片和一段简短的音频,就可以让嘴唇同步,这是静态的照片,所以照片中的人物头部没有任何动作,它还能让视频中的人物与输入的音频同步。我们来看一段视频吧。

其实它的应用非常广,比如好莱坞可以用它来制作多国语音的电源,毫无违和感。然后最近流行的虚拟主播,也是广泛的使用嘴型同步。这个源码它就是通过训练模型,然后将wav匹配到不同的嘴型。

先决条件

  • Python 3.6
  • ffmpeg:sudo apt-get
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Softboy_TM

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值