语音合成论文优选：Dependency Parsing based Semantic Representation Learning with Graph Neural Network for Enh

最新推荐文章于 2022-03-29 17:01:17 发布

我叫永强

最新推荐文章于 2022-03-29 17:01:17 发布

阅读量239

点赞数

分类专栏：语音合成论文文章标签：语音识别人工智能深度学习

本文链接：https://blog.csdn.net/liyongqiang2420/article/details/115733264

版权

语音合成论文专栏收录该内容

104 篇文章 61 订阅

订阅专栏

声明：语音合成论文优选系列主要分享论文，分享论文不做直接翻译，所写的内容主要是我对论文内容的概括和个人看法。如有转载，请标注来源。

欢迎关注微信公众号：低调奋进

Dependency Parsing based Semantic Representation Learning with Graph Neural Network for Enhancing Expressiveness of Text-to-Speech

本文是清华和香港中文大学联合研究中心在2021.04.14更新的文章，主要使用graph neural network来抽取语义信息，因此使合成的语音更自然，具体的文章链接 https://arxiv.org/pdf/2104.06835.pdf

1 研究背景

语义信息对提高tts合成质量非常重要，近年来有许多研究就把bert的输出信息以及使用语法树获取的语义信息输入到TTS中，从而提高语音自然度。本文使用graph neural network来抽取word-level的语义表征，并输入tts，从而使其表达更加自然。

2 详细设计

图1展示了整个系统架构，其中先使用dependency tree（图2所示）和bert输出信息构造dependency graph（包括前向和后向），然后使用RGGN(relational gated graph network)来生成word-level级的语音表征，接下来上采样操作并拼接到音素序列中，最后输入到TTS合成音频。

3 实验

本文实验MOS值如table 1所示，在Ljspeech和bilzzard challenge 2013数据上多试验，由结果可知，本文的BI-dep在ljspeech最好，在bc2013上本文的方案稍微好于baseline的效果。图3的abtest的效果也差不多，LJspeech数据质量问题造成了fwd-dep稍好bi-dep。图4使用合成的句子来具体分析其韵律特性。