-1. 说明
0. Abstract
我们描述了一种基于神经网络的文本到语音(TTS)合成系统,该系统能够在不同说话者的语音中生成语音音频,包括在培训期间看不到的语音。我们的系统由三个经过独立训练的组件组成:(1)说话者编码器网络,使用独立的嘈杂语音数据集(不含笔录)对说话者验证任务进行训练,以仅几秒钟的参考时间生成固定尺寸的嵌入矢量目标演讲者的讲话; (2)一个基于Tacotron 2的序列到序列合成网络,该网络根据说话者的嵌入情况从文本生成梅尔频谱图; (3)一个基于WaveNet的自回归声码器网络,它将mel频谱图转换为时域波形样本。我们证明了所提出的模型能够将由经过区别训练的说话者编码器学习的说话者变异性知识转移到多说话者TTS任务,并且能够从训练过程中看不见的说话者中合成自然语音。我们量化在大型多样的扬声器上训练扬声器编码器的重要性,以获得最佳的泛化性能。最后,我们表明,随机采样的说话人嵌入可用于合成与训练中所使用的说话人不同的新颖说话人语音中的语音,这表明该模型已学会了高质量的说话人表示
1. Introduction
这项工作的目标是建立一个TTS系统,该系统可以以数据有效的方式为各种说话者生成自然语音。我们专门针对零镜头学习设置,在这种设置中,目标说话者的几秒钟未转录的参考音频用于合成该说话者语音中的新语音,而无需更新任何模型参数。这样的系统具有可访问性应用程序,例如
- 恢复了与失去语音并因此无法提供许多新培训示例的用户自然通信的能力。
- 跨语言传输语音以实现更自然的语音到语音翻译
- 资源不足的情况下从文本生成逼真的语音
合成自然语音需要对大量高质量的语音记录副本进行训练,而支持许多说话者通常每位说话者使用数十分钟的训练数据[8]。为许多扬声器记录大量高质量数据是不切实际的。我们的方法是通过独立地训练捕捉说话者特征空间的说话者判别嵌入网络
- 在较小的数据集上训练高质量的TTS模型(以第一个网络学习的表示为条件),将说话人建模与语音合成分离。对网络进行解耦可以使它们在独立数据上进行训练,从而减少了获得高质量多扬声器训练数据的需求
- 我们在说话人验证任务上训练说话人嵌入网络,以确定同一说话人是否说了两种不同的话语
- 与后续的TTS模型相反,此网络针对包含大量说话者的混响和背景噪声的未转录语音进行了训练
我们证明了speaker编码器和合成网络可以在不平衡和不相交的扬声器组上进行训练,并且仍然可以很好地推广。我们在1.2Kspeaker上训练合成网络,并显示在更大的18K扬声器上训练编码器可以提高自适应质量,并可以通过从嵌入之前进行采样来进一步合成全新的扬声器。这么多说话人的嘛???
We train the synthesis network on 1.2K speakers and show that training the encoder on a much larger set of 18K speakers improves adaptation quality, and further enables synthesis of completely novel speakers by sampling from the embedding prior.
人们对TTS模型的端到端培训非常感兴趣,该培训直接从文本音频对中进行培训,而无需依赖手工制作的中间表示[17,23]。
- Tacotron 2 [15]使用WaveNet [19]作为声码器来对由编码器-解码器体系结构生成的频谱图进行反演[3],将Tacotron [23]的韵律与WaveNet的音频质量相结合,获得了接近人类语音的自然度。它仅支持一个扬声器。 Gibiansky等
- [8]介绍了Tacotron的多扬声器变体,它为每个训练扬声器学习了低维扬声器嵌入
- Deep Voice 3 [13]提出了一种完全卷积的编码器/解码器架构,该架构可以扩展为支持来自LibriSpeech [12]的2,400多个扬声器。这些系统学习固定的一组扬声器嵌入,因此仅支持在训练过程中看到的语音合成
- 相反,VoiceLoop [18]提出了一种基于固定大小存储缓冲区的新颖体系结构,该缓冲区可以从训练过程中看不到的语音中生成语音。要获得良好的效果,新演讲者需要数十分钟的注册演讲和成绩单
最新的扩展功能使演讲者可以适应几次拍摄,每个演讲者只有几秒钟的语音(无抄录)可以用来以该发言人的语音产生新的语音:
- [2]扩展了Deep Voice 3,将类似于[18]的说话人自适应方法(其中模型参数(包括说话人嵌入)在少量自适应数据上进行了微调)与使用神经网络进行预测的说话人编码方法进行了比较扬声器直接从频谱图嵌入
- 后一种方法显着提高了数据效率,只需少量的一两次发声,就可以使用少量的适应数据来获得更高的自然度。由于它不需要数百次反向传播迭代,因此它的计算效率也明显更高
- Nachmani等[10]类似地扩展了VoiceLoop以利用目标说话者编码网络来预测说话者嵌入。使用对比三重态损失与合成网络一起对该网络进行训练,以确保根据同一说话者的发音预测的嵌入比根据不同说话者计算的嵌入更近
- 另外,使用循环一致性损失来确保合成语音编码为与自适应话语相似的嵌入。一个类似的频谱图编码器网络,经过训练而没有三重态损失,被证明可以将目标韵律转换为合成语音[16]
不太懂上面的4条
在本文中,我们证明了训练相似的编码器来区分扬声器,可以可靠地传递扬声器的特性。我们的工作与[2,10]中的说话人编码模型最相似,不同之处在于,我们利用经过独立训练的网络对来自成千上万说话者的大量未转录音频的大型数据集进行说话者验证任务,使用最先进的广义端到端损失[22]。 [10]在他们的模型中加入了类似的说话人区分表示,但是所有组件都经过了共同训练。相比之下,我们从预先训练的说话者验证模型中探索迁移学习。 Doddipatla等。 [7]使用了类似的转移学习配置,其中从预训练的说话人分类器计算出的说话人嵌入被用来调节TTS系统。在本文中,我们利用了不依赖中间语言特征的端到端合成网络,以及不限于封闭的说话者集合的完全不同的说话者嵌入网络。此外,我们分析了质量如何随训练集中的说话者数量而变化,发现零镜头转移需要对数千个说话者进行训练,这比[7]中使用的要多得多
2. Multispeaker speech synthesis model
名字叫recurrent speaker encoder
2.1. Speaker encoder
扬声器编码器用于根据来自所需目标扬声器的参考语音信号调节合成网络
- 良好的概括性的关键是要使用捕获不同说话者特征的表示形式
- 以及仅使用短适应信号来识别这些特征的能力
- 而与信号的语音内容和背景噪声无关
使用在与文本无关的说话者验证任务上训练的说话者区分模型可以满足这些要求
我们遵循[22],它提出了一个高度可扩展且准确的神经网络框架,用于说话人验证。网络将根据任意长度的语音发音计算出的对数梅尔频谱图帧映射到固定维嵌入矢量,称为d矢量[20,9]。训练网络以优化广义的端到端说话人验证损失,从而使来自同一说话人的话语嵌入具有较高的余弦相似度,而来自不同说话人的话语嵌入在嵌入空间中相距甚远。训练数据集由分为1.6秒的语音音频示例(定长的吗?)和相关的说话者身份标签组成;不使用任何文本标注
- 将输入的40通道对数梅尔频谱图传递到一个网络
- 该网络由768个单元的3个LSTM层的堆栈组成,每个层之后是256个尺寸的投影。最终的嵌入是通过在最终帧处L2归一化顶层的输出来创建的
- 在推理过程中,任意长度的语音被分成800ms的窗口,重叠50%。网络在每个窗口上独立运行,并对输出求平均值并归一化以创建最终的语音嵌入
The training dataset consists of speech audio examples segmented into 1.6 seconds and associated speaker identity labels; no transcripts are used.
Input 40-channel log-mel spectrograms are passed to a network consisting of a stack of 3 LSTM lay