语音合成（TTS)论文优选:GRAPHSPEECH: SYNTAX-AWARE GRAPH ATTENTION NETWORK FOR NEURAL SPEECH SYNTHESIS

最新推荐文章于 2022-05-31 12:01:30 发布

我叫永强

最新推荐文章于 2022-05-31 12:01:30 发布

阅读量547

点赞数

分类专栏：语音合成论文文章标签：语音识别人工智能深度学习机器学习 tts

本文链接：https://blog.csdn.net/liyongqiang2420/article/details/110238127

版权

语音合成论文专栏收录该内容

104 篇文章 61 订阅

订阅专栏

声明：语音合成（TTS)论文优选系列主要分享论文，分享论文不做直接翻译，所写的内容主要是我对论文内容的概括和个人看法。如有转载，请标注来源。

欢迎关注微信公众号：低调奋进

GRAPHSPEECH: SYNTAX-AWARE GRAPH ATTENTION NETWORK FOR NEURAL SPEECH SYNTHESIS

该篇文章是新加坡国立大学李海州组发表的文章，该文章主要把自然语言处理中语法图引入到self-attention中，从而优化transformer TTS，使该系统在输出的频谱和韵律更佳。文章更新于2020.10.13，文章具体链接http://yqli.tech/pdf/tts_paper/GRAPHSPEECH-%20SYNTAX-AWARE%20GRAPH%20ATTENTION%20NETWORK%20FOR%20NEURAL%20SPEECH%20SYNTHESIS.pdf

1 研究背景

现在的神经网络end-to-end的TTS已经很好的合成高质量语音。当前，End2End的TTS主要分为两类：自回归模型（auto-regressive)和非自回归(non-autoregressive)模型。自回归模型典型代表为tacotron,其主要特点是合成质量很高，但该类系统无法并行执行，因此合成速度慢。基于self-attention的Transformer TTS也是一种自回归的系统，但是该系统可以实现并行训练和计算，与基于RNN的Tacotron模型相比可以显著提升训练效率。但是在解码阶段，仍然是采用自回归方式逐帧解码。虽然Transformer TTS的合成速度具有优势，但合成的质量相对欠缺。针对transformer TTS的以上问题，本文提出了GraphSpeech，把自然语言中的syntax graph引入到attention中，增加语法信息，从而提高语音的合成质量。

2 详细的系统结构

本文章主要对attention进行改造，提出了relation encoder和graph encoder模块。在详细讲述这些结构之前，先看一下目前的self-attention的计算公式：

语音合成（TTS)论文优选：GraphSpeech

这些公式很简单，就是query ,key,value之间的操作，可以学习attention的各类变体，这里不做详细介绍，该attention没有添加句子语法等知识。

接下来介绍本文设计的系统GraphSpeech，如图1所示，该系统添加了relation encoder和Graph Encoder模块，deocder结构不做改变。

语音合成（TTS)论文优选：GraphSpeech

Relation encoder主要的功能是把syntax tree转成syntax graph,提取语法特征，如图2所示。

语音合成（TTS)论文优选：GraphSpeech

graph encoder则是把input text和relation encoder输出的语法特征输入到syntax-aware graph attention,使其attention具有语法特征信息，具体的公式如下：

语音合成（TTS)论文优选：GraphSpeech

最后把graph encoder的输出输入到decoder中，输出声学特征。

3 实验

本部分实验主要从客观和主观指标进行对比。客观指标主要对比mel-spectrun distortion (MCD)和Root mean squared error(RMSE)。从结果可知，对比baseline系统Transformer TTS,本文的graphspeech的值更低，说明合成的声学特征更好。主观的测试主要从MOS和AB test进行测试，从图3 和图4可知，graphspeech的MOS比transformerTTS的值更高，AB test选取较优情况，graphspeech较优占比也较高，因此graphspeech合成的语音质量更高。

语音合成（TTS)论文优选：GraphSpeech