语音合成(TTS)论文优选:GRAPHSPEECH: SYNTAX-AWARE GRAPH ATTENTION NETWORK FOR NEURAL SPEECH SYNTHESIS

声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。

欢迎关注微信公众号:低调奋进

GRAPHSPEECH: SYNTAX-AWARE GRAPH ATTENTION NETWORK FOR NEURAL SPEECH SYNTHESIS

该篇文章是新加坡国立大学李海州组发表的文章,该文章主要把自然语言处理中语法图引入到self-attention中,从而优化transformer TTS,使该系统在输出的频谱和韵律更佳。文章更新于2020.10.13,文章具体链接http://yqli.tech/pdf/tts_paper/GRAPHSPEECH-%20SYNTAX-AWARE%20GRAPH%20ATTENTION%20NETWORK%20FOR%20NEURAL%20SPEECH%20SYNTHESIS.pdf

1 研究背景

现在的神经网络end-to-end的TTS已经很好的合成高质量语音。当前,End2End的TTS主要分为两类:自回归模型(auto-regressive)和非自回归(non-autoregressive)模型。自回归模型典型代表为tacotron,其主要特点是合成质量很高,但该类系统无法并行执行,因此合成速度慢。基于self-attention的Transformer TTS也是一种自回归的系统,但是该系统可以实现并行训练和计算,与基于RNN的Tacotron模型相比可以显著提升训练效率。但是在解码阶段,仍然是采用自回归方式逐帧解码。虽然Transformer TTS的合成速度具有优势,但合成的质量相对欠缺。针对transformer TTS的以上问题,本文提出了GraphSpeech,把自然语言中的syntax graph引入到attention中,增加语法信息,从而提高语音的合成质量。

2 详细的系统结构

本文章主要对attention进行改造,提出了relation encoder和graph encoder模块。在详细讲述这些结构之前,先看一下目前的self-attention的计算公式:

语音合成(TTS)论文优选:GraphSpeech

这些公式很简单,就是query ,key,value之间的操作,可以学习attention的各类变体,这里不做详细介绍,该attention没有添加句子语法等知识。

接下来介绍本文设计的系统GraphSpeech,如图1所示,该系统添加了relation encoder和Graph Encoder模块,deocder结构不做改变。

语音合成(TTS)论文优选:GraphSpeech

Relation encoder主要的功能是把syntax tree转成syntax graph,提取语法特征,如图2所示。

语音合成(TTS)论文优选:GraphSpeech

graph encoder则是把input text和relation encoder输出的语法特征输入到syntax-aware graph attention,使其attention具有语法特征信息,具体的公式如下:

语音合成(TTS)论文优选:GraphSpeech

最后把graph encoder的输出输入到decoder中,输出声学特征。

3 实验

本部分实验主要从客观和主观指标进行对比。客观指标主要对比mel-spectrun distortion (MCD)和Root mean squared error(RMSE)。从结果可知,对比baseline系统Transformer TTS,本文的graphspeech的值更低,说明合成的声学特征更好。主观的测试主要从MOS和AB test进行测试,从图3 和图4可知,graphspeech的MOS比transformerTTS的值更高,AB test选取较优情况,graphspeech较优占比也较高,因此graphspeech合成的语音质量更高。

语音合成(TTS)论文优选:GraphSpeech

语音合成(TTS)论文优选:GraphSpeech

4 总结

本文把NLP中的语法图信息添加到attention中,使合成的语音更富有韵律感,效果更好。(以后的研究方向更倾向于多领域的融合)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我叫永强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值