【Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech 论文阅读】

《Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech》

ICML 2021 Jaehyeon Kim, Jungil Kong, Juhee Son

  1. 摘要
    一些基于单阶段训练和并行解码的端到端语音合成模型取得了不错的效果,但是它们的语音质量与两阶段训练的语音合成模型相比还有一定差距。本文提出了一个完全并行化的语音合成模型,与两阶段模型相比可以生成更加自然的合成语音。模型采用基于标准化流模型 (normalizing flows) 的变分推理 (variational inference) 策略和对抗学习策略来提升生成模型的表现力。我们还提出随机时长预测模块来提升合成语音的韵律多样性。凭借变分推理隐变量和随机时长预测模块的不确定性建模,我们的模型可以很好的处理语音合成中的一对多问题,从而可以为给定文本生成具有多种多样基频和韵律表现的合成语音。在LJSpeech数据上的主观MOS实验结果表明,我们的模型优于目前所有的公开TTS模型,并且MOS分数与Ground Truth相当。

  2. 引言
    不考虑前端文本处理的情况下,语音合成 (text-to-Speech, TTS) 的主要建模过程被简化为两个主要阶段。第一阶段:将前端文本处理得到的规范文本序列转换为中间特征表示,如mel-spectrograms声学特征或语言学特征表示。第二阶段:将中间特征表示重构为语音波形。

    自回归语音合成模型可以合成高质量的语音,但是自回归的序列生成方式限制了模型的并行处理能力。因此

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值