NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level Quality

abstract

  • 减少了训练和预测过程的不匹配:声学+vocoder级联预测变成txt2speech的直接预测, 以及 differentiable durator 代替duration predictor;
  • 减少了one-to-many映射的问题:FastSpeech2的结构改进为memory based VAE and bidirectional prior/posterior ;
  • 提升了representation capacity;

Definition and Judgement of Human-Level Quality in TTS

  • 给出TTS系统结果拟人化的两个标准:(1)参数统计结果合成和录音无误差:CMOS结果接近0,Wilcoxon signed rank p>0.05;(2)人工听测:每个系统50句以上,20个人以上测试。

Design Principle

在这里插入图片描述

  • 文本序列y预测z, P ( z ∣ x ) P(z|x) P(zx),然后优化 K L [ q ( z ∣ x ) KL[q(z|x) KL[q(zx) P ( z ∣ x ) P(z|x) P(zx),音素序列预测先验概率 P ( z ∣ x ) P(z|x) P(zx)比预测后验概 q ( z ∣ x ) q(z|x) q(zx)简单,因此设计的目的是简化后验增强先验。
  • (1)增强phn representation的表达能力:基于masked LM和大量数据预训练phn encoder;
  • (2)使用differentiable durator改善时长建模能力:后验基于帧级别,先验基于phn级别,按照duration对phn prior进行扩帧;
  • (3) bidirectional prior/posterior module简化后验增强先验。
  • (4)利用基于Q-K-V attention的VAE memory bank降低后验概率到波形重建的复杂度;

Phoneme Encoder

  • mixed-phoneme pre-training:使用phn和sup-phn(adjacent phonemes merged together)作为输入,随机的masked掉一些sup-phn tokens以及他们对应的phn-tokens,然后预测masked部分的phn和sup-phn内容。用预训练的模型作为TTS phn-encoder的初始参数。
  • 之前的工作:char/word级别预训练的模型会导致不连贯;phn级别预训练的模型因为phn字典太小性能受限。

Differentiable Durator

  • 包含以下几个部分
  • (1)duration predictor:预测每个phn的duration;
  • (2)learnable upsampling layer:和Parallel Tacotron2一样,通过预测的duration,学习一个projection matrix将phn-seq扩展到frame-seq;(以可微分的方式);相比于FastSpeech2 hard align的方式更加自然。
  • (3)两个额外的线性层,讲expanded hidden seq计算得到mean/std用于先验分布 $P(z^'|y; θ \theta θ_{pri})$

Bidirectional Prior/Posterior

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值