声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。
欢迎关注微信公众号:低调奋进
Learning to Speak Fluently in a Foreign Language: Multilingual Speech Synthesis and Cross-Language Voice Cloning
本文章是google公司在2019.07.24更新的文章,主要做multilingual speech synthesis 的工作,具体的文章链接https://arxiv.org/pdf/1907.04448.pdf
(我之所以写这篇文章,因为我目前做的一个方向也是multilingual & code switch,近期想总结一下该方向的发展状况,而这篇该领域最经典的文章是绕不过去的。先写这篇文章,后续整理该方向综述会更简便一些)
1 研究方向
现在的TTS模型不仅需要支持多种语言,还要支持语言之间的切换自然。然而,大部分企业手中拥有不同说话人不同语言的语料,要想获取同一说话人不同语言的语料需要花费昂贵的成本。本文章使用单语言语料设计了支持多语言跨语言的TTS,而且可以支持语言切换。(研究背景实在不想再阐述了,其实目的只有一个:在缺乏同一个说话人拥有多种语言训练语料前提下,使该说话人的TTS模型支持多语言)
2 详细设计
详细的系统的架构如图1所示。这个架构非常经典,