铜灵 发自 凹非寺
量子位 出品 | 公众号 QbitAI
AI精准模仿你的声音,需要多大规模的训练?
浙江大学和微软的新研究证明,从0开始学习你的声音到准确逼真,AI只需要200个音频片段和相应标注,20分钟的素材就足够了。
并且,这是一种近乎无监督学习方法,只需少量标记和分类整理,直接投喂素材,就有千万个你的声音合成出来了。
声音展示:
如果投喂的是林志玲、郭德纲、新垣结衣的声音……
目前,这个AI系统的单词可识度准确率达到了99.84%,论文已经被机器学习顶会ICML 2019接收。
论文共同一作之一,还是位浙江大学的学霸本科生,目前大四在读。又一位别人家的本科生来了!
细看下这个研究。
四步合成法
这项研究中主要涉及两个任务,文本到语音(TTS,也就是语音合成)和自动语音识别(ASR),缺乏足够多的对齐数据(aligned data)是这两个领域的一大问题。
但在这项研究中,研究人员提出了一种新型的几乎无监督的TTS和ASR大法,通过利用一系列成对的语