【TTS论文】fastspeech2：FASTSPEECH 2: FAST AND HIGH-QUALITY END-TO- END TEXT TO SPEECH

eggplant323

已于 2023-06-19 21:19:46 修改

阅读量1.9k

点赞数 1

分类专栏： TTS 文章标签：人工智能语音识别

于 2023-06-18 02:30:53 首次发布

本文链接：https://blog.csdn.net/eggplant323/article/details/131158188

版权

TTS 专栏收录该内容

9 篇文章

订阅专栏

FASTSPEECH 2: FAST AND HIGH-QUALITY END-TO-END TEXT TO SPEECH

ABSTRACT

非自回归文本到语音（TTS）模型，如FastSpeech（Ren et al，2019），可以比以前质量相当的自回归模型更快地合成语音。FastSpeech模型的训练依赖于用于持续时间预测（以提供更多信息作为输入）和知识distillation（以简化输出中的数据分布）的自回归teacher模型，这可以缓解TTS中的一对多映射问题（即，多个语音变体对应于同一文本）。然而，FastSpeech有几个缺点：1）teacher-student distillation pipeline 复杂且耗时，2）从teacher模型中提取的持续时间不够准确，以及从teacher模型提取的目标mel声谱图由于数据简化而遭受信息丢失，这两者都限制了语音质量。在本文中，我们提出了FastSpeech2，它解决了FastSpeech中的问题，并通过以下方式更好地解决了TTS中的一对多映射问题：1）使用ground-truth target直接训练模型，而不是teacher的简化输出；2）引入更多的语音变化信息（如音高、能量和更准确的持续时间）作为条件输入。具体来说，我们从语音波形中提取持续时间、音高和能量，并在训练中直接将它们作为条件输入，在推理中使用预测值。我们进一步设计了FastSpeech 2s，这是第一次尝试从文本中直接并行生成语音波形，享受完全端到端推理的好处。实验结果表明：1）FastSpeech2的训练速度是FastSpeech的3倍，FastSpeech2s的推理速度更快；2） FastSpeech 2和2s在语音质量方面优于FastSpeech，FastSpeech2甚至可以超越自回归模型。

INTRODUCTION

近年来，基于神经网络的文本到语音（TTS）在机器学习和语音领域取得了长足的进步，并引起了人们的广泛关注。先前的神经TTS模型首先从文本自回归地生成mel声谱图，然后使用单独训练的声码器从生成的mel声纹图合成语音。它们通常存在推理速度慢和鲁棒性（单词跳跃和重复）问题。近年来，非自回归TTS模型被设计来解决这些问题，它以极快的速度生成mel频谱图，避免了鲁棒性问题，同时实现了与以前的自回归模型相当的语音质量。
在这些非自回归TTS方法中，FastSpeech是最成功的模型之一。FastSpeech设计了两种方法来缓解一对多映射问题：1）通过使用自回归teacher模型生成的mel谱图作为训练目标（即knowledge distillation）来减少目标侧的数据方差。2）引入持续时间信息（从teacher模型的注意力图中提取）来扩展文本序列，以匹配mel声谱图序列的长度。虽然FastSpeech中的这些设计简化了TTS中一对多映射问题的学习（见第2.1节），但它们也带来了几个缺点：1）two-stage 的teacher-student training pipeline使train过程变得复杂。2）与真实情况相比，从teacher模型生成的目标mel声谱图具有一些信息损失，因为从生成的mel声纹图合成的音频的质量通常比从真实情况合成的音频质量差。3）从teacher模型的注意力图中提取的持续时间不够准确。

在这项工作中，我们提出了FastSpeech 2来解决FastSpeech中的问题，并更好地处理非自回归TTS中的一对多映射问题。为了简化train pipeline，避免teacher-student distillation中由于数据简化而造成的信息损失，我们直接使用ground truth target训练FastSpeech 2模型，而不是teacher的简化输出。为了减少输入（文本序列）和目标输出（mel声谱图）之间的信息差距（输入中不包含预测目标的所有信息），缓解非自回归TTS模型训练的一对多映射问题，我们在FastSpeech中引入了一些语音的变化信息，包括音高、能量和更准确的持续时间：在训练中，我们从目标语音波形中提取持续时间、音高和能量，并直接将它们作为条件输入；在推理中，我们使用由与FastSpeech 2模型联合训练的预测器预测的值。考虑到音高对语音的韵律很重要，而且随着时间的推移波动很大，很难预测，我们使用连续wavelet变换将pitch contour转换为pitch spectrogram，并在频域中预测音高，这可以提高预测音高的准确性。为了进一步简化语音合成流水线，我们引入了FastSpeech 2s，它不使用mel声谱图作为中间输出，在推理中直接从文本生成语音波形，在推理时具有低延迟。

在LJSpeech数据集上的实验表明：1）FastSpeech 2的训练管道比FastSpeech简单得多（训练时间减少了3倍），同时继承了其快速、鲁棒和可控（在音调和能量方面更可控）的语音合成优势，FastSpeech 2s的推理速度更快；2） FastSpeech 2和2s在语音质量方面优于FastSpeech，FastSpeech2甚至可以超越自回归模型。

这项工作的主要贡献总结如下：

FastSpeech 2通过简化训练管道，实现了比FastSpeech 3倍的训练加速。
FastSpeech 2缓解了TTS中的一对多映射问题，并实现了更好的语音质量。
FastSpeech 2s通过直接从文本生成语音波形，进一步简化了语音合成的推理管道，同时保持了高语音质量

FASTSPEECH 2 AND 2S

在本节中，我们首先描述了FastSpeech 2中的设计动机，然后介绍了FastSpeech2的架构，旨在改进FastSpeech，以更简单的训练管道和更高的语音质量更好地处理一对多映射问题。最后，我们将FastSpeech2扩展到FastSpeech2s，用于完全端到端的文本到波形合成

motivation

TTS是一个典型的一对多映射问题，因为由于语音的变化，如音高、持续时间、音量和韵律，多个可能的语音序列可以对应于一个文本序列。在非自回归TTS中，唯一的输入信息是文本，这不足以完全预测语音中的方差。在这种情况下，模型容易对训练集中目标语音的变化进行过拟合，导致泛化能力较差。如第1节所述，尽管FastSpeech设计了两种方法来缓解一对多映射问题，但它们也带来了几个问题，包括1）复杂的训练管道；2）如表1中所分析的目标mel光谱图的信息损失；以及3）如表5a所示，没有足够准确的地面实况持续时间。在下面的小节中，我们将介绍FastSpeech 2的详细设计，旨在解决这些问题。
在这里插入图片描述
FastSpeech 2的整体模型架构如图1a所示。编码器将phoneme embedding sequence转换为phoneme hidden sequence，然后variance adaptor将持续时间、音高和能量等不同的方差信息添加到phoneme hidden sequence中，最后由mel谱图解码器将调整后的隐藏序列并行转换为mel谱线序列。我们使用feed-forward Transformer块，它是self-attention层和FastSpeech中的1D卷积的堆栈，作为编码器和mel频谱图解码器的基本结构。与依赖teacher-student distillation pipeline和teacher模型的phoneme 持续时间的FastSpeech不同，FastSpeech 2做了一些改进。

model overview

FastSpeech 2的整体模型架构如图1a所示。编码器将音素嵌入序列转换为音素隐藏序列(phoneme embedding sequence into the phoneme hidden sequence)，然后variance adaptor将持续时间、音高和能量等不同的variance信息添加到隐藏序列中，最后由mel谱图解码器将调整后的隐藏序列并行转换为mel谱线序列。我们使用前馈变换器块，它是自注意层和FastSpeech中的1D卷积的堆栈，作为编码器和mel频谱图解码器的基本结构。与依赖师生提炼管道和教师模型的音素持续时间的FastSpeech不同，FastSpeech 2做了一些改进。首先，我们去除了teacher-student distillation pipeline，直接使用groud-truth mel频谱图作为目标进行模型训练，这样可以避免distillation的mel频谱中的信息丢失，增加语音质量的上限。其次，我们的variance adaptor不仅包括持续时间预测因子，还包括音高|pitch 和能量| energy预测因子，其中1）持续时间预测函数使用通过强制对齐获得的音素持续时间作为训练目标，这比从自回归教师模型的注意力图中提取的更准确，如第3.2.2节中实验验证的；以及2）额外的音调和能量预测器可以提供更多的variance信息，这对于缓解TTS中的一对多映射问题很重要。第三，为了进一步简化训练管道，并将其推向一个完全端到端的系统，我们提出了FastSpeech 2s，它直接从文本中生成波形，而无需级联mel频谱图生成（声学模型）和波形生成（声码器）。在下面的小节中，我们描述了我们方法中方差适配器和直接波形生成的详细设计。

variance adaptor

variance adaptor旨在将variance 信息（例如，持续时间、音高、能量等）添加到音素隐藏序列中，这可以为TTS中的一对多映射问题提供足够的信息来预测variant语音。
我们简要介绍了variance 信息如下：1）音素持续时间，它表示语音听起来有多长；2）音高是传达情感的关键特征，对语音韵律有很大影响；3）能量，表示mel声谱图的帧级幅度，直接影响语音的音量和韵律。可以在variance adaptor中添加更多的方差信息，如情绪、风格和说话者，我们将其留给未来的工作。相应地，方差适配器由 1）持续时间预测器（即FastSpeech中使用的长度调节器）2）音调预测器和 3）能量预测器组成，如图1b所示。在训练中，我们将从录音中提取的持续时间、音高和能量的基本真值作为隐藏序列的输入，以预测目标语音。同时，我们使用ground-truth持续时间、音调和能量作为目标来训练持续时间、音高和能量预测器，这些预测器用于推理以合成目标语音。如图1c所示，持续时间、音调和能量预测因子共享相似的模型结构（但模型参数不同），该结构由具有ReLU激活的2层1D卷积网络组成，每个网络后面都是层归一化和丢弃层，以及一个额外的线性层，用于将隐藏状态投影到输出序列中。在下面的段落中，我们分别描述了这三个预测因子的细节。

Duration Predictor

持续时间预测器将音素隐藏序列(phoneme hidden sequence)作为输入，并预测每个音素的持续时间，该持续时间表示与该音素对应的mel帧的数量，并且为了便于预测而将其转换为对数域。以提取的持续时间为训练目标，利用均方误差损失对持续时间预测器进行优化。
我们没有在FastSpeech中使用预先训练的自回归TTS模型来提取音素持续时间，而是使用蒙特利尔强制对齐（MFA| Montreal forced alignment ）工具来提取音位持续时间，以提高对齐精度，从而减少模型输入和输出之间的信息差距。

Pitch Predictor

先前基于神经网络的具有音高预测的TTS系统通常直接预测音高轮廓。然而，如第3.2.2节所分析的，由于ground-truth基音的高度变化，预测基音值的分布与ground-truth分布非常不同。为了更好地预测pitch contour的变化，我们使用连续小波变换（CWT| continuous wavelet transform）将连续音高序列(continuous pitch series)分解为音高谱图(pith sep)，并将音高谱图作为音高预测器的训练目标，该预测器利用MSE损失进行优化。
在推理中，音高预测器预测音高声谱图(pitch spep)，使用逆连续小波变换（iCWT| inverse）将其进一步转换回音高contour。我们在附录中描述了基音提取、CWT、iCWT和基音预测器架构的细节。为了在训练和推理中都将基音轮廓作为输入，我们将每帧的基音F0（分别为训练/推理的基本事实/预测值）量化为对数尺度的256个可能值，并将其进一步转换为基音嵌入向量p并将其添加到扩展的隐藏序列中。

Energy Predictor

我们计算每个短时傅立叶变换（STFT）帧的幅度的L2范数作为能量。然后，我们将每个帧的能量统一量化为256个可能的值，将其编码为能量嵌入 $e$ ，并将其添加到扩展的隐藏序列中，类似于pitch。我们使用能量预测器来预测能量的原始值，而不是量化值，并在MSE损失的情况下优化能量预测器

fastspeech 2s

为了实现完全端到端的文本到波形生成，在本小节中，我们将FastSpeech 2扩展到FastSpeech 2s，它直接从文本生成波形，而无需级联mel频谱图生成（声学模型）和波形生成（声码器）。如图1a所示，FastSpeech2s在中间隐藏上生成波形条件( generates waveform conditioning on intermediate hidden)，这通过丢弃mel频谱图解码器使其在推理中更加紧凑，并实现了与级联系统相当的性能。我们首先讨论了非自回归文本到波形生成的挑战，然后描述了FastSpeech2s的细节，包括模型结构、训练和推理过程。

Challenges in Text-to-Waveform Generation

当将TTS管道推向完全端到端的框架时，存在几个挑战：1）由于波形比mel声谱图包含更多的variance信息（例如，相位），因此输入和输出之间的信息差距比文本到声谱图生成中的信息差距更大。2）由于超长的波形样本和有限的GPU内存，很难在对应于全文序列的音频片段上进行训练。因此，我们只能在与部分文本序列相对应的短音频片段上进行训练，这使得模型很难捕捉不同部分文本序列中音素之间的关系，从而损害了文本特征提取。

Our Method

为了解决上述挑战，我们在波形解码器中进行了几种设计：1）考虑到相位信息很难使用方差预测器进行预测，我们在波解码器中引入对抗性训练，以迫使其自己隐式恢复相位信息。2）我们利用FastSpeech 2的mel声谱图解码器，该解码器在全文序列上进行训练，以帮助提取文本特征。如图1d所示，波形解码器基于WaveNet的结构，包括非因果卷积和门控激活(non-causal convolutions and gated activation)。波形解码器将对应于短音频片段的切片隐藏序列作为输入，并利用转置1D卷积对其进行上采样以匹配音频片段的长度。对抗性训练中的鉴别器采用了Parallel WaveGAN中的相同结构，该结构由十层具有泄漏ReLU激活函数的非因果扩张一维卷积组成。波形解码器通过多分辨率STFT损失和跟随并行WaveGAN的LSGAN鉴别器损失进行优化。在推理中，我们放弃了mel声谱图解码器，只使用波形解码器来合成语音音频。

discussions

在本小节中，我们将讨论FastSpeech 2和2s如何区别于以前的作品和并发作品。

与Deep V oice、Deep Voice 2等方法相比，Fan et al；Ze等人自回归生成波形，并预测持续时间和音高等方差信息，Fastspeech 2和2s采用基于自注意的前馈网络并行生成mel频谱图或波形。虽然一些现有的非自回归声学模型主要侧重于提高持续时间的准确性，但FastSpeech 2和2s提供了更多的变化信息（持续时间、音高和能量）作为输入，以减少输入和输出之间的信息差距。一项并行工作在音素级别使用音高预测，而FastSpeech 2和2s在帧级别预测更细粒度的音高轮廓。虽然一些文本到波形模型，如ClariNet联合训练自回归声学模型和非自回归声码器，但FastSpeech2s采用了完全非自学习的快速推理架构。一项名为EATS的并行工作也采用了非自回归架构和对抗性训练来直接将文本转换为波形，并主要侧重于使用可微分单调插值方案来预测每个音素的端到端持续时间。与EA TS相比，FastSpeech 2s额外提供了更多的变化信息，以缓解TTS中的一对多映射问题。

先前的非自回归声码器不是完整的文本到语音系统，因为它们将时间对齐的语言特征转换为波形，并且需要单独的语言模型来将输入文本转换为语言特征或者需要声学模型来将输出文本转换为声学特征（例如融合谱图）。FastSpeech2s是第一次尝试完全并行地从音素序列直接生成波形，而不是语言特征或mel声谱图。

experiments and results

experimental setup

Datasets

我们在LJSpeech数据集上评估了FastSpeech 2和2s。LJSpeech包含13100个英语音频片段（约24小时）和相应的文字记录。我们将数据集分为三组：12228个样本用于训练，349个样本（文件标题为LJ003）用于验证，523个样本用于测试（文件名称为LJ001和LJ002）。为了进行主观评价，我们在测试集中随机选择了100个样本。为了缓解发音错误问题，我们使用开源的字形到音素工具将文本序列转换为音素序列。我们根据Shen等人将原始波形转换为mel频谱图，并将帧大小和跳跃大小设置为1024和256。

Model Configuration

我们的FastSpeech 2由编码器和mel频谱图解码器中的4个前馈变换器（FFT）块组成。解码器中的输出线性层将隐藏状态转换为80维mel谱图，并且我们的模型利用平均绝对误差（MAE）进行了优化。我们在附录A中添加了实验中使用的FastSpeech 2和2s的更详细配置。训练和推理的详细信息在附录B中添加。

results

在这里插入图片描述
在本节中，我们首先评估FastSpeech 2和2s的音频质量、训练和推理加速。然后我们对我们的方法进行分析和消融研究

model performance

Audio Quality

为了评估感知质量，我们对测试集进行了平均意见得分（MOS）评估。关于合成语音样本的判断。文本内容在不同的系统之间保持一致，因此所有测试人员只检查音频质量，而没有其他干扰因素。我们将FastSpeech 2和FastSpeech 2s生成的音频样本的MOS与其他系统进行了比较，包括1）GT，地面实况记录；2） GT（Mel+PWG），其中我们首先将地面实况音频转换为Mel频谱图，然后使用Parallel WaveGAN将Mel频谱转换回音频（Yamamoto等人，2020）（PWG）；3） Tacotron 2（Shen等人，2018）（Mel+PWG）；4） transformer TTS（李等，2019）（Mel+PWG）；5） FastSpeech（Ren等人，2019）（Mel+PWG）。3）、4）和5）中的所有系统都使用并行WaveGAN作为声码器以进行公平比较。结果如表1所示.可以看出，FastSpeech 2可以超越自回归模型Transformer TTS和Tacotron 2的语音质量，FastSpeech2s可以匹配它们。重要的是，FastSpeech 2的性能优于FastSpeech，它证明了在不使用 teacher-student distillation pipeline的情况下，提供音高、能量和更准确的持续时间等variance信息，并直接将地面实况语音作为训练目标的有效性。
在这里插入图片描述

Training and Inference Speedup

FastSpeech 2通过去除师生蒸馏过程简化了FastSpeech的训练管道，从而减少了训练时间。我们在表2中列出了Transformer TTS（自回归教师模型）、FastSpeech（包括Transformer TTS教师模型和FastSpeech学生模型的训练）和FastSpeech2的总训练时间。可以看出，与FastSpeech相比，FastSpeech 2将总训练时间减少了3.12倍。注意，这里的训练时间仅包括声学模型训练，而不考虑声码器训练。
因此，我们在这里不比较FastSpeech 2s的训练时间。然后，与自回归Transformer TTS模型相比，我们评估了FastSpeech 2和2s的推理延迟，自回归TransformerTTS模型的模型参数数量与FastSpeech 1和2s相似。我们在表2中显示了波形生成的推理加速。可以看出，与Transformer TTS模型相比，FastSpeech 2和2s在波形合成方面分别将音频生成速度提高了47.8倍和51.8倍。我们还可以看到，由于完全端到端的生成，FastSpeech2s比FastSpeech2更快。

在这里插入图片描述

analyses on variance information

在这里插入图片描述
More Accurate Variance Information in Synthesized Speech
在该段中，我们测量在FastSpeech 2和2s中提供更多的方差信息（例如，音高和能量）作为输入是否确实可以合成具有更准确音高和能量的语音。
对于音高，我们计算了基本事实语音和合成语音的音高分布的矩（标准差（σ）、偏度（γ）和峰度（K））（Andreeva等人，2014；Niebuhr和Skarnitzl，2019）和平均动态时间扭曲（DTW）Müller（2007）距离。结果如表3所示。可以看出，与FastSpeech相比，FastSpeech 2/2s生成的音频的矩（σ、γ和K）更接近地面实况音频，并且与其他方法相比，到地面实况音高的平均DTW距离更小，这表明FastSpeech/2s可以生成比FastSpeech更自然的音高轮廓的语音（这可以产生更好的韵律）。我们还在附录D中对生成的球场轮廓进行了案例研究。
在这里插入图片描述
对于能量，我们计算从生成的波形中提取的逐帧能量与地面实况语音之间的平均绝对误差（MAE）。为了确保合成语音和地面实况语音中的帧数相同，我们在FastSpeech和FastSpeech 2中都使用MFA提取的地面实况持续时间。结果如表4所示。我们可以看到，FastSpeech 2/2s的能量的MAE小于FastSpeech的能量，这表明它们都合成了能量与地面实况音频更相似的语音音频。

More Accurate Duration for Model Training
然后，我们分析所提供的持续时间信息的准确性，以训练持续时间预测器，以及基于FastSpeech的更准确的持续时间对更好的语音质量的有效性。我们手动将教师模型生成的50个音频与对应的文本在音素水平上进行对齐，得到基本的音素水平持续时间。我们分别使用本文中使用的FastSpeech教师模型和MFA的持续时间来计算绝对音素边界差的平均值（McAuliffe等人，2017）。结果如表5a所示。我们可以看到，MFA可以生成比FastSpeech的教师模型更准确的持续时间。接下来，我们将FastSpeech中使用的持续时间（来自教师模型）替换为MFA提取的持续时间，并进行CMOS（Loizou，2011）测试，以比较用不同持续时间训练的两个FastSpeech模型之间的语音质量。结果如表5b所示，可以看出，更准确的持续时间信息提高了FastSpeech的语音质量，这验证了我们从MFA改进的持续时间的有效性。在这里插入图片描述

ablation study

Pitch and Energy Input
我们进行了消融研究，以证明FastSpeech 2和2s的几个方差信息的有效性，包括音高和能量。我们对这些消融研究进行CMOS评估。结果如表6所示。我们发现，去除FastSpeech 2和2s中的能量（两个子表中的第3行）会导致语音质量方面的性能下降（-0.040和-0.160。分别为CMOS），表明能量对于FastSpeech 2在改善语音质量方面是有效的，并且对于FastSpeech2s更有效。
我们还发现，去除FastSpeech 2和2s中的音高（两个子表中的第4行）会导致-0.245和-1.130。分别对CMOS进行了测试，验证了间距的有效性。当我们去除音高和能量（两个子表的最后一行）时，语音质量会进一步下降，这表明音高和能量都有助于提高FastSpeech 2和2s的性能。
Predicting Pitch in Frequency Domain
为了研究如第2.3节所述使用连续小波变换（CWT）在频域中预测音高的有效性，我们在FastSpeech 2和2s中直接拟合具有类均方误差能量的音高轮廓。我们进行了CMOS评估，得到FastSpeech 2和2s的CMOS下降分别为0.185和0.201。我们还计算了基音矩和到地面实况基音的平均DTW距离，如表3中第6行所示（记为FastSpeech 2-CWT）。结果表明，连续小波变换可以更好地模拟音高，改善合成语音的韵律，从而获得更好的CMOS分数。

Mel-Spectrogram Decoder in FastSpeech 2s
如第2.4节所述，为了验证FastSpeech 2s中的mel声谱图解码器在文本特征提取方面的有效性，我们移除了mel声纹图解码器并进行CMOS评估。它会导致0.285CMOS下降，这表明mel频谱图解码器对于高质量波形生成至关重要。

在这里插入图片描述

conclusion

在这项工作中，我们提出了FastSpeech 2，一个快速、高质量的端到端TTS系统，以解决FastSpeech中的问题，并缓解一对多映射问题：1）与FastSpeech相比，我们直接使用地面实况mel声谱图来训练模型，以简化训练管道，同时避免信息丢失；2）我们提高了持续时间的准确性，引入了更多的包括基音和能量的方差信息来缓解一对多映射问题，并通过引入连续小波变换来改进基音预测。此外，在FastSpeech 2的基础上，我们进一步开发了FastSpeech 2s，这是一种非自回归的文本到波形生成模型，它享有完全端到端推理的优势，并实现了更快的推理速度。我们的实验结果表明，FastSpeech 2和2s在语音质量方面优于FastSpeech，FastSpeech2甚至可以超越自回归模型，训练管道简单得多，同时继承了FastSpeech快速、稳健和可控的语音合成优势。

在没有任何外部库的情况下，高质量、快速和完全端到端的训练无疑是神经TTS的最终目标，也是一个非常具有挑战性的问题。为了确保FastSpeech 2的高质量，我们使用了外部高性能对齐工具和音高提取工具，这些工具可能看起来有点复杂，但对高质量和快速的语音合成非常有帮助。我们相信，未来会有更多更简单的解决方案来实现这一目标，我们肯定会在没有外部对齐模型和工具的情况下致力于完全端到端的TTS。我们还将考虑更多的方差信息（Zhang et al，2021），以进一步提高语音质量，并使用更轻量级的模型加快推理（Luo et al，2022）。