论文地址:
natural tts synthesis by conditioning wavenet on mel spectrogram predictions
https://arxiv.org/pdf/1712.05884.pdf
论文翻译
https://my.oschina.net/stephenyng/blog/1620467
一、模型框架
a. 一个引入注意力机制(attention)的基于循环seq2seq的特征预测网络,用于从输入的字符序列预测梅尔频谱的帧序列;
b. 一个WaveNet网络的修订版,用于基于预测的梅尔频谱帧序列来学习产生时域波形样本。
c. 连接层:低层次的声学表征-梅尔频率声谱图
1.梅尔频率声谱图