只要5秒就能“克隆”本人语音!美玉学姐不再查寝,而是吃起了桃桃丨开源

AI语音克隆项目MockingBird可在5秒内克隆中文语音,实现个性化合成。模型基于SV2TTS框架,已开源并登上GitHub趋势榜,支持Windows、Linux及M1 Mac系统。预训练模型可直接试玩,适用于语音合成和娱乐应用,但也存在标点符号影响效果、情绪表达不足等问题。开发者希望更多人参与推动项目发展。
摘要由CSDN通过智能技术生成
博雯 萧箫 发自 凹非寺
量子位 报道 | 公众号 QbitAI

现在,AI已经能克隆任意人的声音了!

比如,前一秒的美玉学姐还在宿舍查寝:

后一秒就打算吃个桃桃:

简直就是鬼畜区的福利啊!

(像我们后面就试着白学了一下华强买瓜fa7f87e78ec2ca6c185e7abe6edc553a.png

此外,还有正经的方言版,比如台湾腔就完全冇问题:

这就是GitHub博主Vega最新的语音克隆项目MockingBird,能够在5秒之内克隆任意中文语音,并用这一音色合成新的说话内容。

这一模型短短2个月就狂揽7.6k星,更是一度登上GitHub趋势榜第一:

7a854deb27debedd17e75918bd71c795.png

社区里更是涌入了无数人求预训练模型和保姆级教程。

于是,我们也借此机会试了试这个“柯南模拟器”,并与开发者本人进行了一次深♂入交谈。

5秒合成一段语音,效果如何?

我们先选用一位路人小姐姐的声音,试着让他像华强一样,来一句“这瓜保熟吗”,效果如何?

511c2208fd177faea4eeae3018260dae.gif

嗯,果然小姐姐的语气没有华强的凶猛,不过也准确还原了本人的音色:

这不禁让我们有了一些大胆的想法。

试试只用一声喊叫的语音(甚至小于5s),让AI直接输出一段“我从未见过如此……之人”:

从视频中来听,虽然有一些破碎,不过整体效果还是可以的。

至于诸葛村夫本人,我们反向操作,让他吃起了桃桃:

有生之年,竟然能听见诸葛村夫撒娇……

输出效果现在看来不错,那么输出语音质量究竟如何呢?

我们决定用开头台湾腔生成的语音作为样本,再次合成语音试试。

5bb1989aa20f3fde8a8bf4f689765f03.png

模型再次顺利地合成了“我要买一百个瓜”

评论 19
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值