声音克隆论文翻译

LewGarben

已于 2022-08-18 22:12:11 修改

阅读量253

点赞数

文章标签：语音识别人工智能

于 2022-08-18 22:09:20 首次发布

个人对其解读：声音克隆项目实现_qq_46017342的博客-CSDN博客

代码链接：github搜索mockingbird或者点击https://github.com/babysor/MockingBird

考虑到github访问慢，下面是码云的链接：https://gitee.com/lewgarben/mygit

将学习从说话者验证转移到多说话者文本到语音的合成

我们描述了一个基于神经网络的文本到语音(TTS)合成系统，它能够在不同的说话者的声音中生成语音音频，包括那些在训练中看不见的声音。我们的系统由三个独立训练的组件组成：（1）一个说话者编码器网络，使用一个独立的噪声语音的验证数据集，从目标说话者的参考语音生成一个固定维的嵌入向量；（2）是一个基于塔科加速器2的序列到序列合成网络，以文本为条件，以说话者嵌入生成mel谱图；（3）是一种基于自回归波网的声码器网络，它将mel谱图转换为时域波形样本。我们证明，该模型能够将经过识别训练的说话者编码器学习到的说话者可变性知识转移到多说话人TTS任务中，并能够从训练过程中看不见的说话者中合成自然语音。我们量化了训练说话人编码器在一个大的和多样化的说话人集上的重要性，以获得最佳的泛化性能。最后，我们证明了随机抽样的说话人嵌入可以用于合成与训练中不同的新说话人的语音，这表明该模型已经学习到了高质量的说话人表示。

介绍

这项工作的目标是建立一个TTS系统，它可以以一种数据有效的方式为各种说话者生成自然语音。我们专门解决了一个零镜头学习设置，即来自目标说话者的几秒钟的参考音频用于在该说话者的声音中合成新的语音，而不更新任何模型参数。这类系统具有可访问性应用程序，例如恢复与失去语音的用户进行自然通信的能力，因此无法提供许多新的培训示例。它们还可以启用新的应用程序，例如跨语言传输语音以进行更自然的语音到语音的翻译，或在低资源设置中从文本生成真实的语音。然而，同样重要的是要注意到滥用这项技术的可能性，例如未经他人同意就模仿他们的声音。为了解决与[1]等原则相一致的安全问题，我们验证了该模型所产生的声音可以很容易地与真实的声音区分开来。

合成自然语音需要在大量高质量的语音-文字记录对上进行训练，支持许多说话者通常对每个说话者[8]使用数十分钟的训练数据。为许多扬声器记录大量高质量的数据是不切实际的。我们的方法是通过独立训练一个捕获说话人特征空间并训练一个高质量TTS的具有说话人辨别能力的嵌入网络，将说话人建模从语音合成中解耦模型在一个较小的数据集上，基于第一个网络学习的表示。解耦网络使它们能够在独立的数据上进行训练，这减少了获得高质量的多扬声器训练数据的需要。我们在一个说话人验证任务上训练说话人嵌入网络，以确定同一个说话者是否说了两种不同的话语。与随后的TTS模型相比，该网络是在包含来自大量说话者的混响和背景噪声的未转录语音上进行训练的。

我们证明了说话器编码器和合成网络可以在不平衡和不相交的扬声器集上训练，仍然可以很好地推广。我们在1.2K扬声器上训练合成网络，结果表明，在更大的18K扬声器集合上训练编码器可以提高适应质量，并进一步通过从嵌入先验中采样来合成完全新颖的扬声器。人们对TTS模型的端到端训练非常感兴趣，这些模型直接从文本-音频对中训练，而不依赖于手工制作的中间表示[17,23]。塔科加速器2[15]使用WaveNet[19]作为声编码器，反转由具有注意力[3]的编码解码器架构生成的光谱图，通过将塔科加速器的[23]韵律与WaveNet的音频质量相结合，获得了接近人类语音的自然性。它只支持一个扬声器。吉比安斯基等人。[8]引入了塔扬声器的多扬声器变体，学习每个训练扬声器的低维扬声器嵌入。深度语音3[13]提出了一个完全卷积的编码器-解码器架构，该架构可以支持来自自由语音的超过2400个扬声器

最近的扩展使很少镜头的说话者能够适应，每个说话者只有几秒钟的语音（没有文字记录）可以用来用说话者的声音产生新的语音。[2]扩展了深度语音3，将一种类似于[18]的扬声器自适应方法，即在少量自适应数据上微调模型参数（包括扬声器嵌入）与扬声器编码方法进行了比较，该方法使用神经网络直接从频谱图预测扬声器嵌入。后一种方法的数据效率显著提高，使用少量的适应数据获得更高的自然性，只需一到两个话。它的计算效率也显著提高，因为它不需要数百次反向传播迭代。纳克马尼等人。[10]同样扩展了声环，利用目标扬声器编码网络来预测扬声器的嵌入。该网络与合成网络联合训练，使用对比三联体损失，以确保从同一说话者的话语预测的嵌入比从不同说话者计算的嵌入更接近。此外，还使用了循环一致性损失t

多说话人的语音合成模型

我们的系统由三个独立训练的神经网络组成，如图1所示：（1）是一个基于[22]的循环语音编码器，它从语音2中计算一个固定维向量

信号，（2）是序列到序列合成器，基于[15]，从扬声器嵌入向量条件的字素或音素输入序列预测mel声谱图，（3）是一个自回归波网[19]声码器，它将声谱图转换为时域波形。

2.1音箱编码器

扬声器编码器用于对来自期望目标说话者的参考语音信号的合成网络。良好的泛化的关键是使用一种捕捉不同说话者特征的表示，以及仅使用一个短的适应信号来识别这些特征，独立于其语音内容和背景噪声。使用在文本独立的说话人验证任务上训练的说话人辨别模型来满足这些要求。我们遵循[22]，它提出了一个高度可伸缩性和精确的神经网络框架来验证说话人。该网络将从任意长度的语音话语计算出的对数-mel谱图帧序列映射到一个固定维的嵌入向量，称为d-向量[20,9]。对网络进行训练，优化广义端到端说话者验证损失，使同一说话者的话语嵌入具有较高的余弦相似性，而不同说话者的话语嵌入在嵌入空间中存在很大的距离。训练数据集由分割成1.6秒的语音音频例子和相关的s组成

输入的40通道对数-mel谱图被传递到一个由768个细胞的3个LSTM层组成的网络，每个层随后有一个到256维的投影。最终的嵌入是通过对最终帧的顶层输出的l2标准化来创建的。在推理过程中，一个任意长度的话语被分成800ms的窗口，重叠50%。网络在每个窗口上独立运行，输出被平均和归一化，以创建最终的话语嵌入。虽然网络没有直接优化来学习一种捕捉与合成相关的说话人特征的表征，但我们发现，在说话人辨别任务上的训练会导致一种直接适合于调节合成网络的说话人身份的嵌入

2.2合成器

连接。与[8]相比，我们发现简单地将嵌入传递到注意层，如图1所示，会在不同的说话者之间收敛。我们比较了该模型的两种变体，一种使用扬声器编码器计算嵌入，另一种基线优化训练集中每个说话人的固定嵌入，本质上是学习类似于[8,13]的说话人嵌入查找表。合成器对文本文本和目标音频进行训练。在输入时，我们将文本映射到一系列音素上，这导致了稀有单词和专有名词的快速收敛和发音的改进。网络在迁移学习配置中进行训练，使用预先训练好的说话者编码器（其参数被冻结）从目标音频中提取嵌入的说话者，即说话者参考信号与训练过程中的目标语音相同。没有明确的说话者标识符la

图2：使用提议的系统以不同声音合成句子的示例。Mel光谱图被可视化为用于生成扬声器嵌入的参考话语（左），以及相应的合成器输出（右）。文本到光谱图的对齐用红色表示。使用三个火车的扬声器：一名男性（顶部）和两名女性（中间和底部）。

我们发现这种组合损失对有噪声的训练数据更鲁棒。与[10]相比，我们不引入基于扬声器嵌入的额外损失项。

2.3神经声编码器

我们使用样本自回归波enet[19]作为声编码器，将合成网络发出的合成mel谱图转换为时域波形。其体系结构与[15]中描述的相同，由30个扩展的卷积层组成。该网络并不直接依赖于扬声器编码器的输出。合成器网络预测的mel光谱图捕获了高质量合成各种声音所需的所有相关细节，允许通过简单地对来自许多扬声器的数据进行训练来构建多扬声器声码器。

2.4推理和零镜头扬声器自适应

在推理过程中，模型的条件是使用任意的未转录的语音音频，这不需要匹配要合成的文本。由于用于合成的扬声器特征是从音频中推断出来的，因此它可以以来自训练集之外的扬声器的音频为条件。在实践中，我们发现使用一个几秒钟的音频剪辑就足以合成具有相应扬声器特征的新语音，代表了对新扬声器的零镜头适应。在第3节中，我们将评估这个过程对以前看不见的演讲者的概括。图2可视化了推理过程的一个例子，它显示了使用几个不同的5秒说话者参考话语合成的光谱图。与女性（中间和底部）扬声器相比，合成的男性（顶部）扬声器谱图具有明显较低的基频，在低频密集谐波间距（水平条纹）可见，共振峰，在元音中出现的中频峰值，如0.3秒，顶部的男性F2在mel通道35，而m的F2

表1：语音自然性平均意见得分(MOS)，具有95%的置信区间。

与前两排相比，下一行的信号持续时间更长。对右列相应的参考话语谱图进行类似的观察。

3实验

我们使用了两个公共数据集来训练语音合成和声码器网络。VCTK[21]包含了109位演讲者44小时的干净演讲，其中大多数都有英国口音。我们将音频降采样到24kHz，修剪前导和后面的沉默（将平均持续时间从3.3秒减少到1.8秒），并分成三个子集：火车、验证（包含与火车集相同的扬声器）和测试（包含来自火车和验证集中的11个扬声器）。自由演讲[12]由两个“干净”的训练集组成，包括来自1172个演讲者的436小时的演讲，以16kHz采样。大部分的语言是美国英语，但是由于它来源于有声书，来自同一个说话者的话语的语调和风格可以有显著的不同。我们通过使用ASR模型强制将音频与文本对齐，并打破沉默时的片段，将数据重新划分为更短的话语，将平均持续时间从14秒减少到5秒。与在原始数据集中一样，文本中没有标点符号。扬声器集在列车集、验证集和测试集之间是完全不相交的。

自由语音干净语料库中的许多记录包含明显的环境和静止的背景噪声。我们使用简单的谱减法[4]去噪程序对目标谱图进行预处理，其中一个话语的背景噪声谱被估计为整个信号中每个频带能量的第10百分位。该过程仅用于合成目标；原始的噪声语音被传递给扬声器编码器。我们为这两个语料库分别训练了合成网络和声码器网络。在本节中，我们使用了根据音素输入训练的合成网络，以在主观评价中控制发音。对于音频相当干净的VCTK数据集，我们发现在地面真实mel光谱图上训练的声码器工作得很好。然而，对于噪声更大的自由语音，我们发现有必要根据合成器网络预测的声谱图来训练声编码器。声码器训练没有对目标波形进行去噪。

该说话者编码器在一个专有的语音搜索语料库上接受训练，该语料库包含来自美国18K名英语使用者的36M个话语，平均持续时间为3.9秒。这个数据集没有被转录，但包含了匿名的说话者身份。它从不被用来训练合成网络。我们主要依赖于基于主观听力测试的众包平均意见评分(MOS)评估。我们所有的MOS评估都与绝对类别评级量表[14]对齐，评分从1到5分到0.5分。我们使用这个框架来评估合成语音的两个维度：其自然性和与目标使用者的真实语音的相似性。

3.1语言自然性

我们比较了使用在VCTK和自由语音上训练的合成器和声编码器的合成语音的自然性。我们构建了一个由100个没有出现在任何训练集中的短语组成的评估集，并为每个模型评估了两组说话者：一个由包含在训练集中的说话者组成（看到），另一个由那些被保留的说话者组成（看不见）。我们使用了11个可见的和看不见的VCTK，使用了10个可见的和可见的和不可见的VCTK(附录D)。对于每个说话者，我们随机选择一个持续时间约为5秒的话语来计算说话者的嵌入(见附录C)。每个短语都是为每个说话者合成的，每次评估总共大约有1000个合成的话语。每个样本都由一个评分者进行评分，每个评估都是独立进行的：不同模型的输出没有直接比较。

表2：演讲者相似度平均意见得分(MOS)

结果如表1所示，将所提出的模型与基线多扬声器模型进行了比较，该模型使用了类似于[8,13]的扬声器嵌入查找表，但在其他方面与所提出的合成器网络具有相同的架构。该模型在所有数据集中都获得了约4.0个MOS，VCTK模型在看到的扬声器上评估时获得的MOS比自由语音模型高约0.2分。这是两个缺点的结果自由演讲数据集：(i)缺乏标点符号的成绩单，这使得模型很难学习自然暂停，和（2）更高水平的背景噪音与VCTK相比，其中一些合成器已经学会了复制，尽管去噪如上所述的训练目标。

最重要的是，我们的模型为看不见的扬声器生成的音频被认为至少与为已看到的扬声器生成的音频一样自然。令人惊讶的是，看不见的使用者的MOS比看到的使用者高，高达0.2个百分点。这是每个说话者随机选择的参考话语的结果，这有时会包含不均匀和非中性的韵律。在非正式的听力测试中，我们发现合成语音的韵律有时会模仿参考语音，类似于[16]。这种影响对脂质语音更大，它包含更多多样的韵律。这表明，必须更加小心地将说话者的身份从合成网络中的韵律中分离出来，可能是通过整合[16,24]中的韵律编码器，或者通过训练来自同一说话者的随机成对的参考和目标话语。

3.2扬声器相似性

为了评估合成的语音与来自目标说话者的语音的匹配程度，我们将每个合成的话语与来自同一说话者的随机选择的地面真实话语配对。每一对都由一个评分者进行评分：“你不应该判断句子的内容、语法或音频质量；相反，只关注说话者之间的相似性。”

结果见表2。VCTK模型的得分往往高于自由语音的得分，反映了数据集的清洁本质。这在VCTK上更高的地面真实基线中也很明显。对于在VCTK上看到的说话者，提出的模型的性能与使用嵌入查找表的基线一样好。然而，在LibriSpeech上，提出的模型获得的相似度MOS低于基线，这可能是由于说话者内部变化程度更大(附录B)和数据集中的背景噪声水平。

在看不见的说话者上，所提出的模型在基本事实和合成大小的语音之间获得了较低的相似性。在 VCTK 上，3.28 的相似度得分在评估量表上介于“中等相似”和“非常相似”之间。非正式地，很明显，所提出的模型能够为看不见的说话者转移说话者特征的广泛笔画，清楚地反映正确的性别、音高和共振峰范围（如图 2 所示）。但是，看不见的说话者的相似度得分显着降低表明存在一些细微差别，例如与特征韵律有关，丢失。

说话人编码器只接受北美口音的训练。结果，口音不匹配限制了我们在 VCTK 上的说话人相似度的表现，因为评估者说明没有指定如何判断口音，因此如果口音不匹配，评估者可能会认为一对来自不同的说话者。事实上，对评分者评论的检查表明，我们的模型有时会产生与基本事实不同的口音，从而导致得分较低。然而，一些评估者评论说，尽管口音不同，但声音的语气和语调听起来非常相似。

作为对泛化到域外说话者能力的初步评估，我们使用在 VCTK 和 LibriSpeech 上训练的合成器从其他数据集中合成说话者。我们只改变了合成器和声码器网络的训练集；两种型号都使用相同的扬声器编码器。

表3：跨数据集对看不见的说话者的自然性和说话者相似性的评估。

如表3所示，模型能够生成与表1所示的域内的语音。然而，自由语音模型合成的VCTK扬声器的相似性明显高于VCTK模型，它能够合成自由语音扬声器。自由语音模型更好的泛化表明，仅在100个扬声器上训练合成器不足以实现高质量的扬声器传输。

3.3 说话人验证作为未见说话人合成音频和真实音频之间说话人相似程度的客观指标，我们评估了有限说话人验证系统区分合成语音和真实语音的能力。我们训练了一个新的 eval-only 说话人编码器，其网络拓扑与第 2.1 节相同，但使用来自 113K 说话人的 28M 话语的不同训练集。

使用不同的模型进行评估可确保指标不仅在特定的说话人嵌入空间上有效。我们注册了 21 个真实说话者的声音：11 个来自 VCTK，10 个来自 LibriSpeech，并针对注册的说话者集对合成波形进行评分。在合成器培训期间，所有注册和验证演讲者都看不见。说话人验证相等错误率 (SV-EER) 是通过将每个测试话语与每个注册说话人配对来估计的。我们为每个说话者合成了 100 条测试话语，因此每次评估都进行了 21,000 或 23,100 次试验。

如表 4 所示，只要合成器在足够大的说话者集合上进行训练，即在 LibriSpeech 上，合成语音通常最类似于真实语音。 LibriSpeech 合成器使用来自两个数据集的参考扬声器获得了 5-6% 的相似 EER，而在 VCTK 上训练的合成器表现更差，尤其是在域外 LibriSpeech 扬声器上。这些结果与表 3 中的主观评价一致。

为了衡量区分同一说话者的真实语音和合成语音的难度，我们对一组扩展的已注册说话者进行了额外的评估，其中包括 10 个真实 LibriSpeech 说话者的 10 个合成版本。在这 20 个语音识别任务中，我们获得了 2.86% 的 EER，这表明，虽然合成语音趋向于接近目标说话者（余弦相似度 > 0.6，如表 4 所示），但它几乎总是更接近于目标说话者。同一说话者的合成话语（相似度 > 0.7）。由此我们可以得出结论，所提出的模型可以生成类似于目标说话者的语音，但不足以与真实说话者混淆。

3.4 说话人嵌入空间可视化说话人嵌入空间进一步将 3.2 和 3.3 节中描述的量化结果上下文化。如图 3 所示，不同的说话人在说话人嵌入空间中很好地分开。 PCA 可视化（左）表明，合成的话语往往非常接近嵌入空间中来自同一说话者的真实语音。然而，合成话语仍然很容易与真实人类语音区分开来，如 t-SNE 可视化（右图）所示，其中来自每个合成说话者的话语形成一个不同的集群，与来自相应说话者的真实话语集群相邻。图3：从列表语音话语中提取的说话者嵌入的可视化。每种颜色都对应着一个不同的扬声器。当真实的和合成的话语来自同一个说话人时，它们就会出现在附近，然而真实的和合成的话语始终形成不同的集群。

表5：使用在不同数据集上训练的扬声器编码器(SEs)的性能。合成器都接受过唇音清洁的训练，并对突出的演讲者进行评估。LS: LibriSpeech, VC: VoxCeleb.

在PCA和t-SNE可视化中，说话者似乎按性别分开得很好，所有女性说话者出现在左边，所有男性说话者出现在右边。这表明扬声器编码器已经学习了扬声器空间的合理表示。

3.5扬声器编码器培训演讲器数量

所提出的模型在各种说话人中的泛化能力很可能是基于说话人编码器学习的表示的质量。因此，我们探索了说话人编码器训练集对合成质量的影响。我们使用了三个额外的训练集：(1) LibriSpeech Other，其中包含来自一组 1,166 位说话者的 461 小时的语音，与干净子集中的说话者不相交，(2) VoxCeleb [11] 和 (3) VoxCeleb2 [6 ]，其中分别包含来自 1,211 个说话者的 139K 话语和来自 5,994 个说话者的 1.09M 话语。

表 5 比较了所提出模型的性能，作为用于训练说话人编码器的说话人数量的函数。这衡量了在训练说话人编码器时说话人多样性的重要性。为了避免过度拟合，在小型数据集（前两行）上训练的说话人编码器使用更小的网络架构（256 维 LSTM 单元和 64 维投影）并输出 64 维说话人嵌入。

我们首先评估在 LibriSpeech Clean 和 Other 集上训练的扬声器编码器，每个集都包含相似数量的扬声器。在 Clean 中，扬声器编码器和合成器在相同的数据上进行训练，基线类似于 [2] 中的非微调扬声器编码器，不同之处在于它像 [10] 中的判别式训练。这种匹配条件给出了更好的自然度和相似的相似度分数。随着训练说话人数量的增加，自然度和相似度都显着提高。客观 EER 结果也随着主观评估而提高。

这些结果对多说话者 TTS 训练具有重要意义。由于不需要转录本，扬声器编码器的数据要求比完整的 TTS 训练便宜得多，而且音频质量可能低于 TTS 训练。我们已经证明可以合成非常通过将在大量未转录数据上训练的说话者编码器网络与在较小的高质量数据集上训练的 TTS 网络相结合，自然 TTS。

结论

我们提出了一个基于神经网络的多扬声器 TTS 合成系统。该系统将独立训练的说话人编码器网络与序列到序列的 TTS 合成网络和基于 Tacotron 2 的神经声码器相结合。通过利用判别说话人编码器学习的知识，合成器能够生成高质量的语音，不仅用于在培训期间看到的演讲者，也为从未见过的演讲者。通过基于说话人验证系统的评估以及主观听力测试，我们证明了合成语音与目标说话人的真实语音相当相似，即使是在这些看不见的说话人身上。

我们进行了实验来分析用于训练不同组件的数据量的影响，发现如果合成器训练集中有足够的说话人多样性，可以通过增加说话人编码器训练数据的数量来显着提高说话人传输质量。

迁移学习对于实现这些结果至关重要。通过将说话人编码器和合成器的训练分离，系统显着降低了对多说话人 TTS 训练数据的要求。它既不需要合成器训练数据的说话人身份标签，也不需要说话人编码器训练数据的高质量干净语音或转录本。此外，与 [10] 相比，独立训练组件显着简化了合成器网络的训练配置，因为它不需要额外的三元组或对比损失。然而，使用低维向量对说话人变化进行建模限制了利用大量参考语音的能力。在给定超过几秒的参考语音的情况下提高说话人相似度需要一种模型适应方法，如 [2] 和最近在 [5] 中的方法。

最后，我们证明了该模型能够从与训练集不同的虚拟说话者中生成真实的语音，这意味着该模型已经学会了利用说话者变化空间的真实表示。尽管使用了WaveNet声码器（与[15]提供的单个扬声器的结果相比，以及它的推理成本非常高），但所提出的模型并没有获得人类层面的自然性。这是由于每个演讲者的数据明显较少，以及使用数据质量较低的数据集，从而产生语音的额外困难的结果。另一个限制在于该模型无法传输口音。如果有足够的训练数据，这可以通过调节合成器适应独立的扬声器和重音嵌入来解决。最后，我们注意到，该模型也不能完全将扬声器的声音与参考音频的韵律中分离出来，这与在[16]中观察到的趋势相似。

作者感谢禅敏加、王宇轩、谷歌人工智能感知团队、谷歌TTS和深度思维研究团队提供的有益讨论和反馈。

附录A附加的联合培训基线

表7：语音自然度和说话器相似度平均意见得分(MOS)，基线模型为95%，其中说话器编码器和合成器网络联合训练（前两行）。供比较的包括表5（中间行）中单独训练的基线，以及嵌入查找表和表1中提出的基线（底部两行）提出的模型。除了最后一行，所有的人都是用自由演讲训练的。下面一行使用一个在单独的说话者语料库上训练的说话者编码器。所有的评估都是在自由演讲网站上进行的。

尽管如第 3.5 节所述，如果说话人编码器在更大的未转录语音语料库上训练，则需要单独训练说话人编码器和合成器网络，但在本节中，我们将说话人编码器和合成器网络联合训练的有效性评估为基线，类似于 [10]。

我们在 LibriSpeech 的 Clean 子集上进行训练，包含 1.2K 扬声器，并在第 3.5 节之后使用 64 的扬声器嵌入维度。我们比较了两个基线联合训练系统：一个对说话人编码器的输出没有任何限制，类似于 [16]，另一个具有额外的说话人辨别损失，通过将 64 维说话人嵌入通过线性投影形成用于 softmax 说话人分类器的 logits，优化相应的交叉熵损失。

自然度和说话人相似度 MOS 结果如表 7 所示，将这些联合训练的基线与前几节中报告的结果进行了比较。我们发现，两个联合训练的模型在 Seen 扬声器上获得了相似的自然度 MOS，其中包含判别性扬声器损失的变体在 Unseen 扬声器上表现更好。在 Unseen 说话人的自然度和相似性方面，包含说话人损失的模型与表 5 中的基线具有几乎相同的性能，表 5 使用单独训练的说话人编码器，该编码器也经过优化以区分说话人。最后，我们注意到所提出的模型，它使用在 18K 说话人的语料库上单独训练的说话人编码器，显着优于所有基线，再次突出了迁移学习对这项任务的有效性。

附录B扬声器变化

自由言语话语的语调和风格在不同的话语中也有显著差异。在一些例子中，说话者甚至试图模仿一种不同性别的声音。因此，比较来自同一个说话者的不同话语之间的说话者相似性（即自相似性）有时相对较低，而且不同说话者的差异显著。由于自由语音录音中的噪音水平，一些说话者的自然性得分明显较低。这也与不同的说话者有很大的不同。这一点如表8所示。相比之下，VCTK在自然性和自相似性方面更加一致。表4显示了不同扬声器对合成音频的自然性MOS的差异。它比较了不同扬声器的地面真相和在VCTK上合成的MOS，表明我们提出的模型在VCTK上的性能也非常依赖于扬声器。例如，说话者“p240”获得的MOS为4.48，非常接近地面真相的MOS（4.57），但说话者“p260”比地面真相完全落后0.5点。

表8：地面真相MOS评估细分对看不见的扬声器。相似性评价比较了同一个说话者的两种话语。

图4：在看不见的VCTK音箱上的地面真相和合成语音的自然性MOS。

附录C：参考演讲持续时间的影响

该模型依赖于输入到扬声器编码器中的参考语音信号。如表9所示，增加参考语音的长度显著提高了相似性，因为我们可以用它计算出更精确的说话者嵌入。在VCTK上，质量饱和时间约为5秒。较短的参考话语更自然，因为它们更好地匹配用于训练合成器的参考话语的持续时间，其中值持续时间为1.8秒。该模型仅使用2秒的参考音频就达到了接近最佳的性能。仅使用5秒语音的性能饱和突出了所提出的模型的一个局限性，它受到说话人嵌入的小容量的限制。在[2]中也发现了类似的缩放，在有限的适应数据下，单独调整扬声器嵌入被证明是有效的，但是如果有更多的数据可用，需要对完整模型进行微调以提高性能。这种模式也在最近的工作中得到了证实。