声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。
欢迎关注微信公众号:低调奋进
GRAPHSPEECH: SYNTAX-AWARE GRAPH ATTENTION NETWORK FOR NEURAL SPEECH SYNTHESIS
该篇文章是新加坡国立大学李海州组发表的文章,该文章主要把自然语言处理中语法图引入到self-attention中,从而优化transformer TTS,使该系统在输出的频谱和韵律更佳。文章更新于2020.10.13,文章具体链接http://yqli.tech/pdf/tts_paper/GRAPHSPEECH-%20SYNTAX-AWARE%20GRAPH%20ATTENTION%20NETWORK%20FOR%20NEURAL%20SPEECH%20SYNTHESIS.pdf
1 研究背景
现在的神经网络end-to-end的TTS已经很好的合成高质量语音。当前,End2End的TTS主要分为两类:自回归模型(auto-regressive)和非自回归(non-autoregressive)模型。自回归模型典型代表为tacotron,其主要特点是合成质量很高,但该类系统无法并行执行,因此合成速度慢。基于self-attention的Transformer TTS也是一种自回归的系统,但是该系统可以实现并行训练和计算,与基于RNN的Tacotron模型相比可以显著提升训练效率。但是在解码阶段,仍然是采用自回归方式逐帧解码。虽然Transformer TTS的合成速度具有优势,但合成的质量相对欠缺。针对transformer TTS的以上问题,本文提出了GraphSpeech,把自然语言中的syntax graph引入到attention中,增加语法信息,从而提高语音的合成质量。
2 详细的系统结构
本文章主要对attention进行改造,提出了relation encoder和graph encoder模块。在详细讲述这些结构之前,先看一下目前的self-attention的计算公式:
这些公式很简单,就是query ,key,value之间的操作,可以学习attention的各类变体,这里不做详细介绍,该attention没有添加句子语法等知识。
接下来介绍本文设计的系统GraphSpeech,如图1所示,该系统添加了relation encoder和Graph Encoder模块,deocder结构不做改变。
Relation encoder主要的功能是把syntax tree转成syntax graph,提取语法特征,如图2所示。
graph encoder则是把input text和relation encoder输出的语法特征输入到syntax-aware graph attention,使其attention具有语法特征信息,具体的公式如下:
最后把graph encoder的输出输入到decoder中,输出声学特征。
3 实验
本部分实验主要从客观和主观指标进行对比。客观指标主要对比mel-spectrun distortion (MCD)和Root mean squared error(RMSE)。从结果可知,对比baseline系统Transformer TTS,本文的graphspeech的值更低,说明合成的声学特征更好。主观的测试主要从MOS和AB test进行测试,从图3 和图4可知,graphspeech的MOS比transformerTTS的值更高,AB test选取较优情况,graphspeech较优占比也较高,因此graphspeech合成的语音质量更高。
4 总结
本文把NLP中的语法图信息添加到attention中,使合成的语音更富有韵律感,效果更好。(以后的研究方向更倾向于多领域的融合)