语音合成论文优选:Diverse and Controllable TTS with GMM-Based PLP Mod

声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。

欢迎关注微信公众号:低调奋进


Diverse and Controllable Speech Synthesis with GMM-Based Phone-Level Prosody Modelling

本文是上海交大2021.05.27更新的文章,该文章主要使用GMM来进行phone-level的韵律建模,从而提高语音的自然度​。该文章主要在单人,多人和prosody clone三个方面进行设计和实验,具体的文章链接

https://arxiv.org/pdf/2105.13086.pdf


(这篇文章相关的文章在2月写过一次,可能2月份的是会议版本,现在这篇长文是期刊版本,2月份版本参考https://mp.weixin.qq.com/s?__biz=MzAxNjY3NjQwOQ==&mid=2247484939&idx=1&sn=7a2d8f5f54400a444e42bdf00294569f&chksm=9bf0655dac87ec4b1852a998aeb3885fb21d25a49c65671141ce882942a1dd007919b28d273e&token=1817714809&lang=zh_CN#rd)

1 背景

为了使语音合成系统合成更加自然的语音,很多人研究韵律模型。韵律模型主要分为:global prosody 和fine-grained prosody。其中global prosody是把参考的句子转成一个embedding,这也是目前很多系统采用的方案。fine-grained prosody主要是音素级别(PL:phone level)的韵律建模,常使用单高斯来建模。本文提到使用单高斯来建模不能很好表达音素级别之间的信息,因此使用GMM来对PL进行建模。本文在单发音人和多发音人以及prosody-clone上进行设计和实验,结果表明本文的方案​效果较优。

2 详细设计

首先,先区分两个概念prosody cloning和prosody transfer。prosody cloning是参考的音频内容和输入的text一样,而prosody transfer不需要​,本文主要设计prosody cloning,其训练和推理阶段如图1所示​。

接下来我们先看一下单发音人系统设计如图2所示,其使用MDN网络来预测GMM分布。图中prosody extractor是从音素对应的mel-spec来抽取prosody embedding,主要在训练阶段使用。在推理阶段则使用prosody prediector来预测GMM,并获取prosody embedding。接着图3为多发音人系统,其中添加speaker embedding table来表征speaker id​,其与图2不同之处是把speaker信息拼接到系统,而且prosody predictor也接受发音人​相关信息。图4是prosody cloning的过程,其流程为先训练好图3模型,然后使用参考的语音来计算gaussian index seq。合成目标语音时候,使用gaussian index seq来进行高斯选取采样​。

3 实验

table 1对比句子级别和音素级别的效果,在客观指标MCD显示,​PLP音素级别较好。图5显示GMM的高斯数量大小对似然值影响,从10到20几乎变化很小,本文选取20作为​余下实验。图6显示PLP-GMM(使用GMM音素级别建模)比PLP-SG(单高斯音素级别韵律建模)和ULP(句子级别建模)在ABtest上远远好于​后两者。图7为自然度的测试,其结果PLP-GMM比PLP-SG和ULP好。图8测试韵律embedding有效​性​。图9,图10和图11是prosody cloning实验,​本文最好。
 

4 总结

该文章主要使用GMM来进行phone-level的韵律建模,从而提高语音的自然度。该文章主要在单人,多人和prosody clone三个方面进行设计和实验,结果​优于现有方案。​

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我叫永强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值