VITS论文阅读

霸中吴彦祖z

已于 2023-11-06 20:54:28 修改

阅读量405

点赞数

文章标签： pytorch

于 2023-11-06 20:51:23 首次发布

本文链接：https://blog.csdn.net/qq_49368998/article/details/134254521

版权

阅读笔记：Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech

摘要

最近提出了几种端到端的文本转语音（TTS）模型，它们可以进行单阶段训练和并行采样，但其样本质量不及两阶段TTS系统。在这项工作中，我们提出了一种并行端到端TTS方法，该方法生成的音频比当前的两阶段模型更自然。我们的方法采用了变分推断，并结合了标准化流和对抗训练过程，从而提高了生成建模的表现能力。我们还提出了一种随机时长预测器，以从输入文本中合成具有不同节奏的语音。通过对潜在变量进行不确定性建模和随机时长预测器，我们的方法表达了自然的一对多关系，即文本输入可以以不同的音调和节奏进行多种方式的朗读。对单个说话者数据集LJ Speech进行的主观人类评估（均值意见得分，或MOS）显示，我们的方法优于最佳公开可用的TTS系统，并实现了与真实录音相媲美的MOS。

介绍

文本转语音（TTS）系统通过几个组件从给定文本合成原始语音波形。随着深度神经网络的快速发展，除了文本预处理（如文本规范化和音素化）之外，TTS系统管道已简化为两阶段生成建模。第一阶段是从预处理文本生成中间语音表示，如梅尔频谱图或语言特征，第二阶段是在中间表示条件下生成原始波形。这两个两阶段管道中的模型是独立开发的。

基于神经网络的自回归TTS系统显示出合成逼真语音的能力，但其顺序生成过程使得难以充分利用现代并行处理器。为克服这一局限性并提高合成速度，提出了几种非自回归方法。在文本到频谱图生成步骤中，尝试从预先训练的自回归教师网络中提取注意力图，以降低学习文本与频谱图之间对齐的难度。最近，基于似然的方法通过估计或学习最大化目标梅尔频谱图的对齐，进一步消除了对外部对齐器的依赖。同时，生成对抗网络（GANs）在第二阶段模型中被探索。基于GAN的前馈网络使用多个鉴别器，在不同尺度或时间段区分样本，实现了高质量的原始波形合成。

尽管并行TTS系统取得了进展，但两阶段管道仍然存在问题，因为它们需要进行顺序训练或微调，以实现高质量的生成，其中后期模型是由前期模型生成的样本进行训练。此外，它们对预定义中间特征的依赖阻碍了将学习的隐藏表示应用于进一步提高性能。

最近，一些工作提出了有效的端到端训练方法，例如通过对短音频片段进行训练而不是整个波形，利用梅尔频谱图解码器来辅助文本表示学习，并设计专门的频谱损失来缓解目标和生成语音之间的长度不匹配。然而，尽管通过利用学习到的表示可能改善性能，它们的合成质量仍落后于两阶段系统。

在本研究中，我们提出了一种并行端到端TTS方法，该方法生成的音频比当前的两阶段模型更自然。我们使用变分自动编码器（VAE），通过潜变量将TTS系统的两个模块连接起来，实现了高效的端到端学习。为提高我们方法的表现力，使其能够合成高质量的语音波形，我们对我们的条件先验分布应用了标准化流和在波形领域进行对抗训练。除了生成细粒度的音频外，TTS系统表达一对多的关系非常重要，即文本输入可以以多种方式发音，具有不同的变化（例如音高和时长）。为了解决一对多问题，我们还提出了一种随机时长预测器，以从输入文本中合成具有不同节奏的语音。通过对潜变量进行不确定性建模和随机时长预测器，我们的方法捕获了文本无法表达的语音变化。

我们的方法比当前公开可用的最佳TTS系统Glow-TTS和HiFiGAN具有更自然的语音合成和更高的采样效率。

方法

图1(a)和1(b)分别展示了我们方法的训练和推断过程。从现在开始，我们将把我们的方法称为具有对抗学习的端到端文本到语音变分推断（VITS）。

在这里插入图片描述

图1 系统示意图，描述了（a）训练过程和（b）推理过程。所提出的模型可以看作是一个条件VAE；包括后验编码器、解码器和条件先验（绿色块：一个标准化流、线性投影层和文本编码器），以及基于流的随机语音节奏预测器

变分推断

概述

VITS可以被表达为具有条件VAE，其目标是最大化数据的难以计算的边际对数似然的变分下界，也称为证据下界（ELBO）：
$\log p_{\theta}(x|c) \geq \mathbb{E}_{q_{\phi}(z|x)}[\log p_{\theta}(x|z)] - \log q_{\phi}(z|x, c)(1)$
其中， $p_{\theta}(z|c)$ 表示给定条件 c的潜变量 z的先验分布， $p_{\theta}(x|z)$ 是数据点 x的似然函数， $q_{\phi}(z|x)$ 是近似后验分布。训练损失则是负ELBO，它可以被视为重构损失的总和 $\log p_{\theta}(x|z)$ 和KL散度 $\log q_{\phi}(z|x) - \log p_{\theta}(z|c)$ ，其中 $\sim q_{\phi}(z|x)$ 。

重构损失

在重构损失中，我们使用梅尔频谱图作为目标数据点，而不是原始波形，用 $x_{\text{mel}}$ 表示。我们通过解码器将潜变量 z上采样到波形域 $y^{\hat{}}$ ，并将 $y^{\hat{}}$ 转换为梅尔频谱图域 $x^{\hat{mel}}$ 。然后，使用预测的和目标梅尔频谱图之间的L1损失作为重构损失：
$L_{\text{recon}} = ||x_{\text{mel}} - x^{\hat{mel}}||_1(2)$
这可以被视为假定数据分布为拉普拉斯分布的最大似然估计，并忽略常数项。我们在梅尔频谱图域中定义重构损失，通过使用近似人类听觉系统响应的梅尔刻度，来提高感知质量。需要注意的是，从原始波形估算梅尔频谱图不需要可训练参数，因为它只使用STFT和线性投影到梅尔刻度。此外，这种估算仅在训练过程中使用，不应用于推断。在实践中，我们不会对整个潜变量 z进行上采样，而是使用部分序列作为解码器的输入，这是用于高效端到端训练的窗口生成器训练。

KL散度

先验编码器的输入条件c由从文本中提取的音素 $c_{\text{text}}$ 和音素与潜变量之间的对齐 A 组成。对齐是一个硬单调注意力矩阵，具有 $|c_{\text{text}}| \times |z|$ 维度，表示每个输入音素扩展到与目标语音时间对齐的长度。由于对齐没有地面真实标签，我们必须在每次训练迭代中估算对齐，这将在2.2.1节中讨论。在我们的问题设置中，我们的目标是为后验编码器提供更高分辨率的信息。因此，我们使用目标语音 $x_{\text{lin}}$ 的线性比例谱图作为输入，而不是梅尔频谱图。需要注意的是，修改后的输入不违反变分推断的特性。KL散度是：
$L_{\text{kl}} = \log q_{\phi}(z|x_{\text{lin}}) - \log p_{\theta}(z|c_{\text{text}}, A)$

$\sim q_{\phi}(z|x_{\text{lin}}) = \mathcal{N}(z; \mu_{\phi}(x_{\text{lin}}); \sigma_{\phi}(x_{\text{lin}}))(3)$

我们使用分解的正态分布来参数化我们的先验和后验编码器。我们发现增加先验分布的表达能力对生成逼真样本是重要的。因此，我们对分解正态先验分布应用了标准化流 $f_{\theta}$ ，允许将简单分布可逆地转换为更复杂的分布，遵循变量转换规则：

$p_{\theta}(z|c) = \mathcal{N}\left(f_{\theta}(z); \mu_{\theta}(c); \sigma_{\theta}(c)\right) \left| \frac{\partial f_{\theta}(z)}{\partial z} \right|$

$[c_{\text{text}}; A](4)$

对齐估计

单调对齐搜索

为了估计输入文本和目标语音之间的对齐 A，我们采用了单调对齐搜索（Monotonic Alignment Search，MAS），这是一种寻找最大化由标准化流 f参数化的数据的对齐方法：
$\arg \max_{\hat{A}} \log p(x|c_{\text{text}}, \hat{A}) = \arg \max_{\hat{A}} \log \mathcal{N}\left(f(x); \mu(c_{\text{text}}, \hat{A}); \sigma(c_{\text{text}}, \hat{A})\right)(5)$
这里候选的对齐被限制为单调和无跳跃，这是因为人类在阅读文本时按顺序阅读，不会跳过任何单词。为了找到最优的对齐，使用动态规划。直接在我们的设置中应用 MAS 是困难的，因为我们的目标是ELBO，而不是精确的对数似然。因此，我们重新定义了 MAS，以寻找最大化 ELBO 的对齐，这等同于找到最大化潜变量 (z) 的对数似然的对齐：
$\arg \max_{\hat{A}} \log p_{\theta}(x_{\text{mel}}|z) - \log q_{\phi}(z|x_{\text{lin}}) = \arg \max_{\hat{A}} \log p_{\theta}(z|c_{\text{text}}, \hat{A}) = \log \mathcal{N}\left(f_{\theta}(z); \mu_{\theta}(c_{\text{text}}, \hat{A}); \sigma_{\theta}(c_{\text{text}}, \hat{A})\right)(6)$
由于方程 5 类似于方程 6，我们可以使用原始的 MAS 实现而无需修改。

来自文本的时长预测

我们可以通过对估计的对齐矩阵 $P$ 中每行的所有列进行求和来计算每个输入标记 $d_i$ 的持续时间。这种持续时间可以用于训练确定性的持续时间预测器，就像之前的工作中提出的那样，但它无法表达每个人在不同的说话速度下的发音方式。为了生成类似人类说话节奏的语音，我们设计了一个随机时长预测器，使其样本遵循给定音素的持续时间分布。

随机时长预测器是一个基于流的生成模型，通常通过最大似然估计训练。然而，直接应用最大似然估计是困难的，因为每个输入音素的持续时间是：

1）离散整数，需要去量化为连续的标准化流，以及2）标量，这阻止了高维变换的可逆性。为了解决这些问题，我们应用了变分去量化）和变分数据增强。具体来说，我们引入了两个随机变量 $u$ 和 $\nu$ ，它们具有与持续时间序列 $d$ 相同的时间分辨率和维度，用于变分去量化和变分数据增强。我们将 $u$ 的支持限制为 $[0, 1)$ ，这样差值 $d - u$ 就成为一系列正实数，然后按通道对 $v$ 和 $d$ 进行串联以生成更高维的潜在表示。我们通过近似后验分布 $q_{\phi}(u, \nu|d, c_{\text{text}})$ 对这两个变量进行采样。由此得到的目标是音素持续时间的 log-likelihood 的变分下界：
$\log p_{\theta}(d|c_{\text{text}}) \geq \mathbb{E}_{q_{\phi}(u, \nu|d, c_{\text{text}})} \left[ \log \mathbb{E}_{p_{\theta}}(d(u, \nu - u, \nu)|d, c_{\text{text}}) \right](7)$
训练损失 $L_{\text{dur}}$ 是负变分下界。我们应用了停止梯度算子（stop gradient operator）到输入条件上，以防止持续时间预测器的训练影响其他模块的训练。

采样过程相对简单；音素持续时间是通过随机噪声的逆变换从随机时长预测器中采样得到，然后将其转换为整数。

对抗训练

为了在我们的学习系统中采用对抗训练，我们添加了一个鉴别器 D，用于区分由解码器 G 生成的输出和地面真实波形 y。在这项工作中，我们使用了成功应用于语音合成的两种损失类型：最小二乘损失函数用于对抗训练，以及用于训练生成器的额外的特征匹配损失：

$L_{\text{adv}}(D) = \mathbb{E}(y; z) \left[ (D(y) - 1)^2 + (D(G(z)))^2 \right](8)$

$L_{\text{adv}}(G) = \mathbb{E}_z \left[ (D(G(z)) - 1)^2 \right](9)$

$L_{\text{fm}}(G) = \mathbb{E}(y; z) \left[ \frac{1}{N_l} \sum_{l=1}^{T} \left\lVert D_l(y) - D_l(G(z)) \right\rVert_1 \right](10)$

这里， $T$ 表示鉴别器中的总层数， $D_l$ 输出鉴别器第 $l$ 层的特征映射， $N_l$ 表示特征数量。值得注意的是，特征匹配损失可以被视为隐层的重构损失，它是在变分自编码器的隐藏层中测量的，被提出作为对元素级重构损失的替代。

最终损失

通过组合变分自编码器和生成对抗网络的训练，我们条件变分自编码器的总损失可以表示为：
$L_{\text{vae}} = L_{\text{recon}} + L_{\text{kl}} + L_{\text{dur}} + L_{\text{adv}}(G) + L_{\text{fm}}(G)(11)$

模型架构

所提出模型的总体架构包括后验编码器、先验编码器、解码器、鉴别器和随机时长预测器。后验编码器和鉴别器仅用于训练，而不用于推断。

后验编码器

对于后验编码器，我们使用了 WaveGlow和 Glow-TTS中使用的非因果 WaveNet 残差块。WaveNet 残差块由多层扩张卷积、门控激活单元和跳跃连接组成。块上方的线性投影层产生了正态后验分布的均值和方差。在多说话者情况下，我们在残差块中使用了全局调制来添加说话者嵌入。

先验编码器

先验编码器由处理输入音素 $c_{\text{text}}$ 的文本编码器和改善先验分布灵活性的标准化流 $f_{\theta}$ 组成。文本编码器是一个变压器编码器，使用了相对位置表示，而不是绝对位置编码。我们可以通过文本编码器和线性投影层得到隐藏表示 $h_{\text{text}}$ ，用于构建先验分布。标准化流是一组仿射耦合层，包括一系列 WaveNet 残差块。为了简单起见，我们设计了标准化流为保体积的变换，其雅可比行列式为1。在多说话者情况下，我们通过全局调制向标准化流的残差块中添加了说话者嵌入。

解码器

解码器本质上是 HiFi-GAN V1 生成器。它由一系列转置卷积组成，每个转置卷积后面跟随一个多接受域融合模块（MRF）。MRF 的输出是具有不同接受域大小的残差块输出的总和。在多说话者设置中，我们添加了一个线性层，将说话者嵌入转换并加到输入的潜在变量 z上。

鉴别器

我们遵循HiFi-GAN提出的多周期鉴别器的结构。多周期鉴别器是一种基于马尔可夫窗口的子鉴别器混合体，每个子鉴别器在输入波形的不同周期模式上运行。

随机时长预测器

随机时长预测器从条件输入 $h_{\text{text}}$ 中估算音素时长的分布。为了有效参数化随机时长预测器，我们使用具有扩张和深度可分离卷积层的残差块。我们还应用了神经样条流，它们使用单调有理二次样条来进行可逆的非线性变换，以耦合层。相比通常使用的仿射耦合层，神经样条流在具有类似数量的参数的情况下提高了变换表达能力。对于多说话者设置，我们添加一个线性层，将说话者嵌入转换并加到输入的 $h{\text{text}}$ 中。

实验

数据集

我们在两个不同的数据集上进行了实验。为了与其他公开可用模型进行比较，我们使用了 LJ Speech 数据集，以及 VCTK 数据集来验证我们的模型是否能够学习和表达多样的语音特征。

LJ Speech 数据集包含了一位单一演讲者的约 13,100 段短音频片段，总时长约为 24 小时。音频格式为 16 位 PCM，采样率为 22 kHz。我们在没有任何处理的情况下使用了此数据集。我们将数据集随机分为训练集（12,500个样本）、验证集（100个样本）和测试集（500个样本）。

VCTK 数据集包含了大约 44,000 段短音频片段，由 109 位以英语为母语的演讲者以不同口音演讲。音频总时长约为 44 小时。音频格式为 16 位 PCM，采样率为 44 kHz，我们将采样率减少至 22 kHz。同样地，我们随机将数据集分为训练集（43,470个样本）、验证集（100个样本）和测试集（500个样本）。

预处理

我们使用线性频谱图，可以通过短时傅立叶变换（STFT）从原始波形获得，作为后验编码器的输入。变换的 FFT 大小、窗口大小和跨度分别设置为 1024、1024 和 256。我们使用 80 个频段的梅尔频谱图作为重构损失，这是通过将梅尔滤波器应用于线性频谱图而获得的。

我们使用国际音标（IPA）序列作为先验编码器的输入。我们使用开源软件将文本序列转换为国际音标音素序列，转换后的序列按照 Glow-TTS 的实现方式与空白标记交错。

训练

我们使用 AdamW 优化器进行网络训练，参数设置为 β1 = 0.8、β2 = 0.99 和权重衰减 λ = 0.01。学习速率按照每个 epoch 以 0.9991/8 的因子进行衰减，初始学习率为 2 × 10^(-4)。我们采用了窗口式生成器训练，该方法仅生成部分原始波形，以减少训练时的时间和内存占用。我们随机提取窗口大小为 32 的潜在表示段，输入解码器，而不是将整个潜在表示段输入，同时从真实原始波形中提取相应的音频片段作为训练目标。我们在 4 个 NVIDIA V100 GPU 上进行混合精度训练，每个 GPU 的批量大小设置为 64，并将模型训练至 800,000 步。

比较的实验设置

我们将我们的模型与最好的公开可用模型进行了比较。作为第一阶段模型，我们使用了 Tacotron 2（一个自回归模型）和 Glow-TTS（一个基于流的非自回归模型），以及作为第二阶段模型的 HiFi-GAN。我们使用了它们的公开实现和预先训练好的权重。鉴于两阶段 TTS 系统理论上可以通过顺序训练实现更高的合成质量，我们将经过精细调整的 HiFi-GAN 与来自第一阶段模型的预测输出进行了 100,000 步的对比。我们实验中发现，使用来自 Tacotron 2 生成的梅尔频谱图进行 HiFi-GAN 的精细调整，在 Tacotron 2 和 Glow-TTS 的质量上都比使用来自 Glow-TTS 生成的梅尔频谱图的精细调整效果更好，因此我们将更好的经过精细调整的 HiFi-GAN 分别添加到 Tacotron 2 和 Glow-TTS。

由于每个模型在采样时都具有一定的随机性，我们通过固定控制每个模型随机性的超参数来保持实验的一致性。在 Tactron 2 的预网络中，丢失概率设为 0.5。对于 Glow-TTS，先验分布的标准差设为 0.333。对于 VITS，随机时长预测器的输入噪声标准差设为 0.8，并且我们将先验分布的标准差乘以 0.667 作为一个比例因子。

结果

语音合成质量

我们进行了众包 MOS 测试来评估语音合成质量。评分者听取随机选取的音频样本，并在从 1 到 5 的 5 级评分标度上对其自然度进行评分。评分者只能对每个音频样本评价一次，并且我们对所有音频剪辑进行了归一化处理，以避免振幅差异对评分的影响。本研究中的所有质量评估都是以这种方式进行的。评估结果显示在表 1 中。

在这里插入图片描述

表1 在 LJ Speech 数据集上评估的 MOS 比较及 95% 置信区间

VITS 在其他 TTS 系统之上表现出色，并达到了与原始音频相似的 MOS。VITS（DDP）使用的是 Glow-TTS 中使用的相同确定性语音时长预测器架构，而不是随机时长预测器，它在 MOS 评估中得分排名第二。

这些结果暗示了以下事实：1）随机时长预测器比确定性时长预测器生成更真实的音素时长；2）即使保持相似的时长预测器架构，我们的端到端训练方法是一种有效的方法，能够生成比其他 TTS 模型更好的样本。在先验编码器中使用正规化流会导致与基线相比 1.52 的 MOS 下降，这表明先验分布的灵活性显著影响合成质量。用梅尔频谱代替后验输入的线性比例尺导致质量下降（-0.19 MOS）。

我们进行了割除研究以证明我们方法的有效性，包括先验编码器中的正规化流和线性比例尺频谱后验输入。割除研究中的所有模型均训练至 300k 步。结果显示在表 2 中。

在这里插入图片描述

表2 消融研究中的 MOS 比较

从先验编码器中割除正规化流导致与基线相比 1.52 的 MOS 下降，表明先验分布的灵活性显著影响了合成质量。用梅尔频谱替换后验输入的线性比例尺导致质量下降 (-0.19 MOS)，表明高分辨率信息对 VITS 在提高合成质量方面是有效的。

多说话人文本转语音的泛化

为验证我们的模型是否能够学习和表达多样的语音特征，我们将我们的模型与 Tacotron 2、Glow-TTS 和 HiFi-GAN 进行了比较。这些模型已经表现出可以扩展到多说话人语音合成的能力。我们在 VCTK 数据集上对模型进行了训练。我们向我们的模型中添加了说话人嵌入。对于 Tacotron 2，我们广播了说话人嵌入，并将其与编码器输出串联，对于 Glow-TTS，我们采用了前人的全局调节方法。如表 3 所示，我们的模型的 MOS 高于其他模型。这表明我们的模型以端到端的方式学习和表达了各种语音特征。

在这里插入图片描述

表3 在 VCTK 数据集上评估 MOS 的比较，95% 置信区间

语音变化

我们验证了随机时长预测器产生了多少不同长度的语音，合成样本有多少不同的语音特征。所有这里的样本都是从句子 “How much variation is there?” 生成的。图 2a 展示了每个模型生成的 100 个发音的长度的直方图。由于确定性时长预测器的原因，Glow-TTS 生成的发音长度是固定的，而我们模型生成的样本遵循与 Tacotron 2 相似的长度分布。图 2b 展示了多说话人设置下，我们模型生成的 100 个发音的长度，暗示了模型学习了与说话人相关的音素时长。

在这里插入图片描述

图2 样本持续时间（秒），分别对应（a）LJ Speech 数据集和（b）VCTK 数据集

图 3 中使用 YIN 算法提取的 10 个发音的 F0 曲线显示，我们模型产生了具有不同音高和节奏的语音。图 3d 中每个不同说话人身份的五个样本演示了我们的模型为每个说话人身份表达了非常不同长度和音高的语音。需要注意的是，Glow-TTS 可以通过增加先验分布的标准差来增加音高的多样性，但相反地，它可能降低了合成质量。

在这里插入图片描述

图3 “How much variation is there?”这句话的音调轨迹。样本分别来自（a）VITS，（b）Tacotron 2，（c）Glow-TTS的单扬声器设置，以及（d）VITS的多扬声器设置

合成速度

我们将我们的模型与并行的两阶段 TTS 系统、Glow-TTS 和 HiFi-GAN 进行了合成速度比较。我们从 LJ Speech 数据集的测试集中随机选择了 100 个句子，从音素序列生成原始波形的整个过程中测量了同步的经过时间。我们使用了单个 NVIDIA V100 GPU，批量大小设置为 1。结果显示在表 4 中。由于我们的模型不需要用于生成预定义中间表示的模块，它的采样效率和速度大大提高。

在这里插入图片描述

表4 合成速度比较， n kHz的速度表示该模型能够每秒生成n×1000个原始音频样本，实时表示实时合成速度

结论

在这项工作中，我们提出了一种并行的文本到语音合成系统：VITS，它可以以端到端的方式学习和生成语音。我们进一步引入了随机语音节奏预测器，以表达多样化的语音节奏。由此产生的系统可以直接从文本合成自然音质的语音波形，无需经过预定义的中间语音表示。我们的实验结果显示，我们的方法优于两阶段的TTS系统，并接近人类的语音质量。我们希望所提出的方法将用于许多语音合成任务，其中已经使用了两阶段的TTS系统，以实现性能提升并简化培训流程。我们还想指出，尽管我们的方法将TTS系统中的两个分离的生成管道集成在一起，但仍然存在文本预处理的问题。研究语言表示的自监督学习可能是消除文本预处理步骤的一个可能方向。