作者:Yuxiang Zou
单位:Bytedance AI
abstract
- ToBI (Tones and Break Indices),英文的韵律标记
本文在做英文语音合成,引入ToBI (Tones and Break Indices)进行细粒度的韵律建模 ,使用预训练的NLP模型ELECTRA,基于ToBI标签finetune,预测四种标签。然后和tacotron系统配合,完成韵律粒度更细致可控的英文合成。
proposed method
- 包含两个部分,文本前端(预测ToBI label),以及TTS声学模型。
front-end
预测四种标记(word level),因此是一个序列建模的问题
- Pitch accents 对单词的音节标记轻/重读音, L ∗ / H ∗ / L ∗ + H / H ∗ + L L^* /H^*/L^*+H/H^*+L L∗/H∗/L∗+H/H∗+L
- Boundary tones:每一个完整的语调短语边界,默认是 H % / L % H\%/L\% H%/L%
- Phrase accents:pitch accent和boundary tone的边界,默认是 H − / L − H-/L- H−/L−
- Break indices:4/3/2/1,不同程度的停顿
虽然无监督的方法在NLP任务中已经广泛应用,但是因为ToBI的数据量比较少,因此本任务采用ELECTRA结构。ELECTRA是一个预训练的text encoder,后边会接判别器,判断输入的token是real or false。对ELECTRA进行finetune,输入768-d的WordPiece token ,CE loss预测上述四种label。
TTS
-tacotron结构
- 因为输入的韵律格式有多种粒度,因此可以更加自如的进行韵律控制。
experiment
- dataset:1.5w句的native speaker,专家标注的ToBI标签