Pre-trained Text Representations for Improving Front-End Text Processing in Mandarin Text-to-Speech Synthesis
时间:Interspeech 2019
单位:腾讯
基本思路:应用BERT和NMT这种能够提取提取语义信息的结构,进行信息提取后,再进行多音字和韵律的预测。
表现的最好的模型结构:BERT-Base(12层,每层768units),NMT encoder模型(6层,每层512units),Bi-LSTM
数据集:
多音字:内部数据集,300000条句子,每条句子里只标注了一个多音字,89个多音字,202个发音。
韵律:内部数据集,150000条句子。
效果:
多音字消歧准确率:
BERT表示仅用BERT,NMT表示仅用NMT,TB表示把BERT和NMT的输出concat到一起。
韵律预测的F1得分:
BERT表示仅用BERT,NMT表示仅用NMT,BERT-MT表示用BERT并用一个model同时预测PW和PP。