【论文学习笔记】《NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS》

《NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS》论文学习

  摘要

       本文介绍了一种直接从文本进行语音合成的神经网络体系结构 Tacotron 2
       该系统由一个循环序列到序列特征预测网络组成,该网络将字符嵌入映射到梅尔尺度的光谱图,然后是一个改进的 WaveNet 模型,作为声码器,从这些光谱图合成时域波形。
       我们的模型达到了平均意见得分( MOS ) 4.53 ,与专业录音演讲的 MOS 4.58 相比较。
       为了验证我们的设计选择,我们对我们系统的关键部件进行消融研究,并评估使用梅尔谱图作为 WaveNet 输入而不是语言、持续时间和 F0 特征的影响。
       我们进一步证明,使用紧凑的声学中间表示可以显著简化 WaveNet 结构。
       
       索引术语 —— Tacotron 2WaveNet ,语音合成
       

  1 介绍

       尽管经过了几十年的研究(《Text-to-Speech Synthesis》),从文本生成自然语音仍然是一项具有挑战性的任务。
       随着时间的推移,不同的技术主导了这个领域。
       拼接合成与单元选择,将预先记录的小单元波形拼接在一起的过程(《Unit selection in a concatenative speech synthesis system using a large speech database》,《Automatically clustering similar units for unit selection in speech synthesis》)是多年来的最先进技术。
       统计参数语音合成(《Speech parameter generation algorithms for HMMbased speech synthesis》,《Statistical ParametriC Speech Synthesis》,《Statistical parametric speech synthesis using deep neural networks》,《Speech synthesis based on hidden Markov models》),它直接生成要用声码器合成的语音特征的平滑轨迹,解决了连接合成与边界伪影的许多问题。
       然而,与人类的语言相比,这些系统产生的音频往往听起来很低沉,不自然。
       
        WaveNet (《WaveNet: A generative model for raw audio》)是一种时域波形生成模型,它产生的音频保真度开始与真实的人类语音相媲美,并且已经在一些完整的 TTS 系统中使用(《Deep voice: Real-time neural text-to-speech》,《Deep voice 2: Multi-speaker neural text-to-speech》,《Deep voice 3: 2000- speaker neural text-to-speech》)。
       然而,对 WaveNet 的输入(语言特征、预测的 log 基频( F0 )和音素持续时间)需要专业领域的专家来生成,包括复杂的文本分析系统和健壮的词典(发音指南)。
       
        Tacotron (《Tacotron: Towards end-to-end speech synthesis》)是一种序列到序列的(《Sequence to sequence learning with neural networks》)体系结构,用于从字符序列中生成幅度谱图,它用单一的神经网络来代替这些语言和声学特征的生成,从而简化了传统的语音合成管道。
       为了对产生的幅度谱图进行声编码, Tacotron 使用 Griffin-Lim 算法(《Signal estimation from modified short-time Fourier transform》)进行相位估计,然后进行短时傅里叶反变换。
       正如作者所指出的,这只是未来神经声码器方法的一个占位符,因为 Griffin-Lim 会产生特征伪迹,而且音频保真度比 WaveNet 等方法低。
       
       在本文中,我们描述了一种统一的、完全神经的语音合成方法,它结合了之前的最佳方法:一种序列到序列 Tacotron 风格的(《Tacotron: Towards end-to-end speech synthesis》)模型,生成梅尔谱图,然后是一种改进的 WaveNet 声码器(《Deep voice 2: Multi-speaker neural text-to-speech》,《Speaker-dependent WaveNet vocoder》)。
       该系统允许从字符序列和语音波形直接对 TTS 进行端到端的学习,产生接近真实人类语音的自然语音。
       
        Deep Voice 3 (《Deep voice 3: 2000- speaker neural text-to-speech》)描述了类似的方法。
       然而,与我们的系统不同的是,它的音频保真度还不能与人类语言相匹敌。
        Char2Wav (《Char2Wav: End-to-end speech synthesis》)描述了另一种使用神经声码器实现端到端 TTS 的类似方法。
       但是,它们使用不同的中间表示(传统的声码器特性),它们的模型架构也有很大的不同。
       

  2 模型架构

       我们建议的系统由两个组件组成,如图 1 所示:
               (1) 一种有注意的循环序列到序列特征预测网络,它从输入字符序列中预测一组梅尔谱图帧;
               (2) 改进后的 WaveNet ,根据预测的梅尔谱图帧生成时域波形样本。
       
图片1

1 :系统架构框图

       

    2.1 中间特性表征

       在这项工作中,我们选择一个低层次的声学表示:梅尔频谱图,以桥接我们的系统的两个组成部分。
       使用一种很容易从时域波形计算出来的表示法可以让我们分别训练这两个分量。
       这种表示也比波形样本更平滑,并且更容易使用均方误差损耗进行训练,因为它在每帧内对相位是不变的。
       
       梅尔频谱图与线性频谱图有关,即短时傅里叶变换( STFT )幅度。
       它是通过对 STFT 的频率轴进行非线性变换得到的,该变换的灵感来自于人类听觉系统的测量响应,并总结了较少维度的频率内容。
       使用这种听觉频率尺度的效果是强调对语音清晰度至关重要的低频细节,而不强调由摩擦音和其他噪声爆发主导的高频细节,通常不需要高保真建模。
       由于这些特性,几十年来,从梅尔尺度派生的特征一直被用作(《Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences》)语音识别的底层表示。
       
       当线性谱图丢弃相位信息(因此是有损的)时,像 Griffin-Lim (《Signal estimation from modified short-time Fourier transform》)这样的算法能够估计这些丢弃的信息,从而通过短时傅里叶反变换实现时域转换。
       梅尔光谱图丢弃了更多的信息,提出了一个具有挑战性的反问题。
       然而,与在 WaveNet 中使用的语言和声学特征相比,梅尔谱图是对音频信号的一种更简单、更低层次的声学表示。
       因此,使用类似的以梅尔声谱图为条件的 WaveNet 模型来生成音频应该很简单,本质上是一种神经声码器。
       事实上,我们将证明,使用一种改进的 WaveNet 结构,从梅尔谱图中产生高质量音频是可能的。
       

    2.2 光谱图预测网络

       与 Tacotron 一样,mel谱图是通过一个使用 50 毫秒帧大小、 12.5 毫秒帧跳和 Hann 窗口函数的短时傅里叶变换( STFT )来计算的。
       我们将 STFT 幅度转换为梅尔尺度,使用 80 通道梅尔滤波器组,跨度为 125 Hz7.6 kHz ,然后进行日志动态范围压缩。
       在对数压缩之前,为了限制对数域的动态范围,滤波器组的输出幅度被稳定在 0.01 的底部。
       
       该网络由编码器和解码器组成。
       编码器将字符序列转换为隐藏的特征表示,解码器使用该特征表示来预测谱图。
       输入字符使用 512 维字符嵌入来表示,这些字符通过 3 个卷积层,每个卷积层包含 512 个形状为 5×1 的滤波器,即每个滤波器跨越 5 个字符,然后进行批处理标准化(《Batch normalization: Accelerating deep network training by reducing internal covariate shift》)和 ReLU 激活。
       与在 Tacotron 中一样,这些卷积层在输入字符序列中建模长期上下文(例如, n 连字符串)。
       最后一个卷积层的输出被传递到单一的双向(《Bidirectional recurrent neural networks》) LSTM (《Long short-term memory》)层,该层包含 512 个单元(每个方向 256 个单元),生成编码后的特征。
       
       编码器输出被一个注意力网络消耗,该注意力网络将整个编码序列总结为每个解码器输出步骤的固定长度上下文向量。
       我们使用来自(《Attention-based models for speech recognition》)的位置敏感注意,它扩展了加性注意机制(《Neural machine translation by jointly learning to align and translate》),使用先前解码器时间步长的累积注意权重作为附加特征。
       这鼓励模型在输入过程中一致地向前移动,减少了一些子序列重复或被解码器忽略的潜在失效模式。
       将输入和位置特征投影到 128 维隐藏表示后,计算注意概率。
       使用 32 个长度为 31 的一维卷积滤波器计算位置特征。
       
       解码器是一个自回归回归神经网络,它从编码的输入序列一次一帧地预测输出谱图。
       前一个时间步长的预测首先通过一个包含 2 个完全连接层的小 “预网络” ,该预网络包含 256 个隐藏 ReLU 单元。
       我们发现 “预网络” 作为一个信息瓶颈对学习注意至关重要。
        “预网络” 的输出和注意上下文向量被连接起来,并通过一个有 1024 个单位的 2 个单向 LSTM 层的堆栈。
       然后, LSTM 输出和注意上下文向量的连接通过线性变换进行投影,以产生目标谱图框架的预测。
       最后,将预测的特征通过5层卷积 “后网络” ,预测一个残差添加到初始预测中,以改善整体重建。
       每个 “后网络” 层由 512 个过滤器组成,形状为 5×1 ,批处理标准化,然后在最后一层上进行 tanh 激活。
       
       我们最小化 “后网络” 前后的均方误差( MSE ),以帮助收敛。
       我们还通过混合密度网络对输出分布建模(《Mixture density networks》,《On supervised learning from sequential data with applications for speech recognition》)来试验对数似然损失,以避免假设随时间变化的方差不变,但发现这些更难训练,也不能产生更好的声音样本。
       
       与谱图帧预测并行,解码器 LSTM 输出和注意上下文的连接被投射成一个标量,并通过一个 Sigmoid 激活来预测输出序列完成的概率。
       在推断过程中使用这个 “停止令牌” 预测,以允许模型动态地决定何时终止生成,而不是总是在固定的时间内生成。
       
       网络中的卷积层采用 dropout (《Dropout: a simple way to prevent neural networks from overfitting》)正则化,其概率为 0.5LSTM 层采用 zoneout (《Zoneout: Regularizing RNNs by randomly preserving hidden activations》)正则化,其概率为 0.1
       为了引入推理时的输出变化,在自回归解码器的 “预网络” 层中仅应用概率为 0.5dropout
       
       与 Tacotron 相比,我们的模型使用更简单的构建块,在编码器和解码器中使用普通的 LSTM 和卷积层,而不是 CBHG 堆栈和 GRU 循环层。
       我们不使用 “缩减系数” ,即每个解码器步骤对应于一个单一的谱图帧。
       

    2.3 WaveNet 声码器

       我们使用(《WaveNet: A generative model for raw audio》)改进的 WaveNet 架构,将梅尔谱图特征表示转化为时域波形样本。
       在原来的架构中,有 30 个膨胀褶积层,分为 3 个膨胀循环,即 k 层( k = 0 …29 )的膨胀率是 2 k(mod10)
       
       然而,我们没有使用 softmax 层预测离散化桶,而是遵循 PixelCNN++ (《PixelCNN++: Improving the PixelCNN with discretized logistic mixture likelihood and other modifications》)和最近对 WaveNet (《Parallel WaveNet: Fast HighFidelity Speech Synthesis》)的改进,并使用 logistic 分布( MoL )的 10 组分混合物在 24 kHz 下生成 16 位样本。
       为了计算 logistic 混合分布,将 WaveNet 堆栈输出通过一个 ReLU 激活,然后通过一个线性投影层预测每个混合成分的参数(平均值、对数尺度、混合权重)。
       损失计算为地真值样本的负对数似然。
       
       原始的 WaveNet5 毫秒的帧速率使用语言特征、音素持续时间和 log F0
       在我们的实验中,我们注意到在预测如此紧密间隔的谱图帧时出现了显著的发音问题,因此我们修改了 WaveNet 架构,通过在转置的卷积网络中仅使用 2 个上采样层来处理 12.5 ms 的特征间隔。
       

  3 实验及结果

    3.1 训练环境设置

       我们的训练过程包括首先单独训练特征预测网络,然后在第一个网络产生的输出上独立训练一个修正的 WaveNet 网络。
       
       为了训练特征预测网络,我们在单个 GPU 上使用标准的最大似然训练程序(输入正确的输出,而不是在解码器端输入预测的输出,也称为强制教师),批处理大小为 64
       我们使用 Adam 优化器(《Adam: A method for stochastic optimization》), β1 = 0.9β2 = 0.999c = 10-6 ,学习速率 10-350000 次迭代后指数衰减到 10-5 。我们也应用权重为 10-6L2 正则化。
       
       然后,我们在特征预测网络的真实情况对齐预测上训练我们的修正 WaveNet 网络。
       也就是说,这些预测是在教师强迫模式下产生的,因此每个谱图帧都与目标波形样本精确对齐。
       我们使用 β1 = 0.9β2 = 0.999c = 1e-8 和固定学习率 1e-4Adam 优化器,在 32GPU 上进行同步更新,批大小为 128 。它有助于质量平均模型权重最近的更新。
       因此,我们在更新步骤上保持网络参数的指数加权移动平均,衰减为 0.9999 -这个版本用于推断(参见(《Adam: A method for stochastic optimization》))
       为了加快收敛速度,我们将波形目标缩放了 127.5 倍。
       这种缩放使得混合物流层的初始输出更接近最终分布。
       
       我们在一个内部的美国英语数据集上训练所有模型,该数据集包含来自一位职业女性演讲者的 24.6 小时的演讲。
       我们的数据集中的所有文本都是详细说明的。例如, 16 被写成 sixteen ,即我们的模型都是在预规范化文本上训练的。
       

    3.2 评估

       以推理方式生成语音时,真实情况的目标是未知的。
       因此,前一步的预测输出是在解码过程中输入的,而不是用于训练的教师强制配置。
       
       我们从测试集中随机选择 100 个固定的例子作为评估集。
       在这个集合上生成的音频被发送到类似于 AmazonMechanical Turk 的人类评级服务,每个样本在 15 的范围内至少由 8 个评级者打分, 0.5 分递增,从中计算主观平均意见分数( MOS )。
       每次评估都是独立进行的,所以当要求评分者给两个不同模型打分时,不会直接比较它们的输出。
       
       请注意,虽然评估集中的实例从未出现在训练集中,但两个集合之间有一些重复的模式和常见单词。
       虽然与由随机单词生成的句子组成的评估集相比,这可能会导致 MOS 的膨胀,但使用这个集可以让我们与基本事实进行比较。
       因为我们比较的所有系统都是在相同的数据上训练的,所以相对比较仍然是有意义的。
       
表1

1 :以 95% 置信区间对各种系统进行平均意见评分( MOS )评估

       

       表 1 显示了我们的方法与各种先前系统的比较。
       为了更好地隔离使用梅尔谱图作为特征的效果,我们将其与基于语言特征的 WaveNet 进行比较,并对上面介绍的 WaveNet结构进行了类似的修改。
       我们还将其与原始的 Tacotron 进行比较,前者预测线性谱图,并使用 Griffin-Lim 来合成音频,以及连接(《Recent advances in Google real-time HMM-driven unit selection synthesizer》)和参数(《Fast, compact, and high quality LSTM-RNN based statistical parametric speech synthesizers for mobile devices》)基线系统,这两种系统都已在谷歌的生产中使用。
       我们发现,该系统的性能显著优于所有其他 TTS 系统,并导致 MOS 可与真实情况音频相媲美。
       
       我们还对系统合成的音频和地面真相进行了并排评估。对于每一对话语,评分者被要求给出一个分数范围从 -3 (合成的比真实情况差得多)到 3 (合成的比真实情况好得多)。
       总体平均分数 -0.270 ± 0.155 表明评分者对真实情况的偏好较小,但在统计上显著高于我们的结果。
       
图片2

2 :合成结果vs真实情况:在 100 个项目上有 800 个评分

       

       图 2 给出了详细的分类。
       评价者的评论表明,我们的系统偶尔的发音错误是导致这种偏好的主要原因。
       
       我们在(《Deep voice 3: 2000- speaker neural text-to-speech》)附录 E 的自定义 100 句测试集上手工分析了我们系统的错误模式。
       在这些句子产生的音频中, 0 个句子包含重复的单词, 6 个包含误读的单词, 1 个包含跳过的单词,还有 23 个句子被主观判定包含不自然的韵律,比如错误的音节或单词的重音,或者不自然的音调。
       在一个例子中,最长的句子端点预测失败了。总的来说,我们的模型在这些输入上的 MOS 值为 4.354
       这些结果表明,虽然我们的系统能够可靠地处理整个输入,但在韵律建模方面仍有改进的空间。
       
       最后,我们对 37 个新闻标题生成的样本进行了评估,以测试我们的系统对域外文本的泛化能力。
       在这个任务中,我们的模型得到的 MOS 值为 4.148±0.124 ,而以语言特征为条件的 WaveNet 得到的 MOS 值为 4.137±0.128
       对这些系统产生的语音进行对比的评估也显示了一个虚拟的平局,在统计上对我们的结果的偏好是 0.142±0.338
       对评分者评论的检查表明,我们的神经系统倾向于产生让评分者感觉更自然、更像人类的语言,但它有时会遇到发音困难,比如在处理名字时。
       这一结果指向了我们的端到端神经方法所面临的一个挑战,它需要对涵盖预期用途的数据进行训练。
       

    3.3 烧蚀研究

      3.3.1 预测特征与真实情况

       虽然我们模型的两个组件是独立训练的,但 WaveNet 组件依赖于有预测的特征来进行训练。
       另一种方法是根据从真实情况音频中提取的梅尔谱图训练 WaveNet 网,这将允许它在与特征预测网络隔离的情况下进行训练。
       我们在表 2 中探讨了这种可能性。
表2

2 :将预测的梅尔谱图与真实情况梅尔谱图进行合成
比较了在预测的梅尔谱图与真实情况梅尔谱图上训练的 WaveNet 对系统评价 MOS 值的影响

       

       正如预期的那样,当用于训练的特征类型与用于推理的特征类型相匹配时,将获得最佳性能。
       然而,当从真实情况音频中提取梅尔谱图进行训练,并根据预测的特征进行合成时,结果要差得多。
       这很可能是由于根据真实情况训练的模型无法处理预测特征中的固有噪声。
       这种差异可以通过数据增强来消除。
       

      3.3.2 线性谱图

       我们没有预测梅尔谱图,而是通过训练实验来预测线性频率谱图,这使得使用 Griffin-Lim 反演谱图成为可能。
       
表3

3 :比较评估 MOSGriffin-LimWaveNet 作为声码器
并使用 1025 维线性谱图与 80 维梅尔谱图作为 WaveNet 的条件特征

       

       正如在(《Deep voice 2: Multi-speaker neural text-to-speech》)中提到的, WaveNet 产生的音频质量比 Griffin-Lim 高得多。
       然而,使用线性尺度和梅尔尺度的光谱图并没有太大的区别。
       因此,使用梅尔谱图似乎是一个严格的更好的选择,因为它是一个更紧凑的表示。
       在未来的工作中,探索梅尔频率箱的数量与音频质量( MOS )之间的平衡将是很有趣的。
       

      3.3.3 后处理网络

       由于在解码之前不可能使用预测的未来帧的信息,我们使用卷积后处理网络在解码后合并过去和未来帧,以改善特征预测。
       然而,由于 WaveNet 已经包含了卷积层,人们可能会想,当 WaveNet 用作声码器时,后处理网络是否仍然是必要的。
       为了回答这个问题,我们将我们的模型与没有后处理网络的模型进行了比较,发现没有后处理网络的模型的 MOS 分数只有 4.429±0.071 ,有后处理网络的为 4.526±0.066 ,这说明从经验上看,后处理网络仍然是网络设计的重要组成部分。
       

      3.3.4 简化 WaveNet

        WaveNet 的一个定义特征是它使用膨胀的卷积,以指数方式增加接收场的层数。
       我们评估 WaveNet 模型不同接受域大小和层数来测试我们的假设,一个浅网络较小的接受域可能圆满解决这个问题,因为梅尔谱图比语言特征更接近波形,并且已经捕捉到帧间的长期依赖性。
       
       如表 4 所示,我们发现我们的模型仅使用 12 层和 10.5 ms 的接收场就可以产生高质量的音频,而基线模型是 30 层和 256 ms
       
表4

4:具有不同层次和接收野大小的 WaveNet

       

       这些结果证实了(《Deep voice: Real-time neural text-to-speech》)的观察结果,即大的接收野大小并不是影响音频质量的关键因素。
       然而,我们假设是梅尔谱图的条件选择使得复杂性得以降低。
       
       另一方面,如果我们完全消除扩张的卷积,接收场会比基线小两个数量级,即使堆栈与基线模型一样深,质量也会显著下降。
       这表明,为了产生高质量的声音,该模型在波形样本的时间尺度上需要足够的上下文。
       

  4 结论

       本文提供了 Tacotron 2 的详细描述,这是一个端到端神经 TTS 系统,它结合了序列到序列循环网络,并注意用改进的 WaveNet 声码器预测梅尔谱图。
       由此产生的系统将语音合成为 Tacotron 级韵律和 WaveNet 级音频质量。
       该系统可以直接从数据进行训练,无需依赖复杂的特征工程,并实现了最先进的音质接近自然人类语音。
       

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值