NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level Quality

最新推荐文章于 2024-05-15 09:46:36 发布

林林宋

最新推荐文章于 2024-05-15 09:46:36 发布

阅读量653

点赞数

文章标签：机器学习人工智能深度学习

原文链接：https://arxiv.org/abs/2205.04421

版权

减少了训练和预测过程的不匹配：声学+vocoder级联预测变成txt2speech的直接预测，以及 differentiable durator 代替duration predictor；
减少了one-to-many映射的问题：FastSpeech2的结构改进为memory based VAE and bidirectional prior/posterior ；
提升了representation capacity；

给出TTS系统结果拟人化的两个标准：（1）参数统计结果合成和录音无误差：CMOS结果接近0，Wilcoxon signed rank p>0.05；（2）人工听测：每个系统50句以上，20个人以上测试。

在这里插入图片描述

文本序列y预测z， $P (z ∣ x)$ ，然后优化 $K L [q (z ∣ x)$ 和 $P (z ∣ x)$ ，音素序列预测先验概率 $P (z ∣ x)$ 比预测后验概 $q (z ∣ x)$ 简单，因此设计的目的是简化后验增强先验。
（1）增强phn representation的表达能力：基于masked LM和大量数据预训练phn encoder；
（2）使用differentiable durator改善时长建模能力：后验基于帧级别，先验基于phn级别，按照duration对phn prior进行扩帧；
（3） bidirectional prior/posterior module简化后验增强先验。
（4）利用基于Q-K-V attention的VAE memory bank降低后验概率到波形重建的复杂度；

mixed-phoneme pre-training：使用phn和sup-phn（adjacent phonemes merged together）作为输入，随机的masked掉一些sup-phn tokens以及他们对应的phn-tokens，然后预测masked部分的phn和sup-phn内容。用预训练的模型作为TTS phn-encoder的初始参数。
之前的工作：char/word级别预训练的模型会导致不连贯；phn级别预训练的模型因为phn字典太小性能受限。

包含以下几个部分
（1）duration predictor：预测每个phn的duration；
（2）learnable upsampling layer：和Parallel Tacotron2一样，通过预测的duration，学习一个projection matrix将phn-seq扩展到frame-seq；（以可微分的方式）；相比于FastSpeech2 hard align的方式更加自然。
（3）两个额外的线性层，讲expanded hidden seq计算得到mean/std用于先验分布 $P（z^'|y; $\theta$ _{pri}）$