博雯 萧箫 发自 凹非寺
量子位 报道 | 公众号 QbitAI
现在,AI已经能克隆任意人的声音了!
比如,前一秒的美玉学姐还在宿舍查寝:
后一秒就打算吃个桃桃:
简直就是鬼畜区的福利啊!
(像我们后面就试着白学了一下华强买瓜)
此外,还有正经的方言版,比如台湾腔就完全冇问题:
这就是GitHub博主Vega最新的语音克隆项目MockingBird,能够在5秒之内克隆任意中文语音,并用这一音色合成新的说话内容。
这一模型短短2个月就狂揽7.6k星,更是一度登上GitHub趋势榜第一:
社区里更是涌入了无数人求预训练模型和保姆级教程。
于是,我们也借此机会试了试这个“柯南模拟器”,并与开发者本人进行了一次深♂入交谈。
5秒合成一段语音,效果如何?
我们先选用一位路人小姐姐的声音,试着让他像华强一样,来一句“这瓜保熟吗”,效果如何?
嗯,果然小姐姐的语气没有华强的凶猛,不过也准确还原了本人的音色:
这不禁让我们有了一些大胆的想法。
试试只用一声喊叫的语音(甚至小于5s),让AI直接输出一段“我从未见过如此……之人”:
从视频中来听,虽然有一些破碎,不过整体效果还是可以的。
至于诸葛村夫本人,我们反向操作,让他吃起了桃桃:
有生之年,竟然能听见诸葛村夫撒娇……
输出效果现在看来不错,那么输出语音质量究竟如何呢?
我们决定用开头台湾腔生成的语音作为样本,再次合成语音试试。
模型再次顺利地合成了“我要买一百个瓜”