Abstract
理论部分为
- Tacotron-2的Encoder改为了全CNN的,参数使用Meta-learning Concept of Contextual Parameter Generation(不过不知道Contextual具体指什么TODO)
- 文中分别用了10个语言和5个语言做实验,可能只有2个语言就不能训了(猜测,不过对于方言合成倒是有利)
- 语料要求更少,在训练集不管是整个还是只有每个语言每个人600句或者900句下,CER基本上均是最好(但可能并不能保证每个说话人都可以Voice Clone,细节见实验)
实验部分为
- 实验验证的目的是,various levels of cross-lingual parameter sharing下哪一种更好(猜测也可以阐述为语音模型和语言模型的共享)
- 衡量指标1:stability and performance when training on low amounts of data – 借助ASR后CER大小
- 衡量指标2.1:speaker similarity(fluency, naturalness, and stability of the voice ) – 外文单词读的音色像不像
- 衡量指标2.2:accuracy – 外文单词发音准不准
- 数据集:CSS10挑选好的,CV挑选好的,均为开源
- 实验结果:衡量指标均是最好
- 实验结论:同上文的实验目的,这样的跨语言(以及跨音色)共享参数的方式effectively share information across languages
- 实验推论1(猜测):GEN模型的Accurate Multilingual功能,既当有单人多语语料的时候,论文方法弥补了第二语言发音不标准的缺陷(不确定,有些玄乎)
- 实验推论2(猜测):GEN模型的Voice Clone功能,既单语说话人也可以说多种语言,不管单语说话人的语料多少(不确定,毕竟是speaker embedding,或许speaker encoder vector会好些)
代码部分为
1. Introduction
1.1. multiple languages TTS难点
- different inp