文章目录
abstract
- 减少了训练和预测过程的不匹配:声学+vocoder级联预测变成txt2speech的直接预测, 以及 differentiable durator 代替duration predictor;
- 减少了one-to-many映射的问题:FastSpeech2的结构改进为memory based VAE and bidirectional prior/posterior ;
- 提升了representation capacity;
Definition and Judgement of Human-Level Quality in TTS
- 给出TTS系统结果拟人化的两个标准:(1)参数统计结果合成和录音无误差:CMOS结果接近0,Wilcoxon signed rank p>0.05;(2)人工听测:每个系统50句以上,20个人以上测试。
Design Principle
- 文本序列y预测z, P ( z ∣ x ) P(z|x) P(z∣x),然后优化 K L [ q ( z ∣ x ) KL[q(z|x) KL[q(z∣x)和 P ( z ∣ x ) P(z|x) P(z∣x),音素序列预测先验概率 P ( z ∣ x ) P(z|x) P(z∣x)比预测后验概 q ( z ∣ x ) q(z|x) q(z∣x)简单,因此设计的目的是简化后验增强先验。
- (1)增强phn representation的表达能力:基于masked LM和大量数据预训练phn encoder;
- (2)使用differentiable durator改善时长建模能力:后验基于帧级别,先验基于phn级别,按照duration对phn prior进行扩帧;
- (3) bidirectional prior/posterior module简化后验增强先验。
- (4)利用基于Q-K-V attention的VAE memory bank降低后验概率到波形重建的复杂度;
Phoneme Encoder
- mixed-phoneme pre-training:使用phn和sup-phn(adjacent phonemes merged together)作为输入,随机的masked掉一些sup-phn tokens以及他们对应的phn-tokens,然后预测masked部分的phn和sup-phn内容。用预训练的模型作为TTS phn-encoder的初始参数。
- 之前的工作:char/word级别预训练的模型会导致不连贯;phn级别预训练的模型因为phn字典太小性能受限。
Differentiable Durator
- 包含以下几个部分
- (1)duration predictor:预测每个phn的duration;
- (2)learnable upsampling layer:和Parallel Tacotron2一样,通过预测的duration,学习一个projection matrix将phn-seq扩展到frame-seq;(以可微分的方式);相比于FastSpeech2 hard align的方式更加自然。
- (3)两个额外的线性层,讲expanded hidden seq计算得到mean/std用于先验分布 $P(z^'|y; θ \theta θ_{pri})$