【论文学习笔记】《A Review of Deep Learning Based Speech Synthesis》

基于深度学习的语音合成综述论文学习

  1 简介

        这篇论文先是简单介绍了语音合成在当今社会的应用与影响,谈到了近几年发展迅速的深度学习让人们在语音合成领域有了很大的进展;接着介绍了语音合成的基础知识,发展历史以及技术方法;分别对统计参数语音合成技术与基于深度学习的语音合成技术做了详细介绍;最后对语音合成未来的发展方向进行探讨。
       

  2 语音合成概述

    2.1 语音合成概念

       语音合成(TTS)就是将任何文本信息实时地转换成标准的、平滑的语音。它涉及声学、语言学、数字信号处理、计算机科学等多个学科。它是信息处理领域的一项前沿技术,尤其对于当前的智能语音交互系统而言。

    2.2 语音合成发展历史

       随着数字信号处理技术的发展,语音合成的研究目标已经从可理解性和清晰度发展到自然性和可表达性。
       
       语音合成的早期技术主要是使用参数合成方法:
       
       1971年,匈牙利科学家沃尔夫冈·冯·肯佩伦(Wolfgang von Kempelen)使用一系列精巧的风箱、弹簧、风笛和共鸣箱,创造了一种可以合成简单单词的机器。但合成语音的可理解性很差。
       
       1980年,Klatt系列/并联共振峰合成器被提出。然而,由于共振峰参数的提取仍然是一个具有挑战性的问题,合成语音的质量难以满足实际需求。
       
       1990年,基音同步重叠添加(PSOLA)算法被提出。该算法大大提高了时域波形拼接合成方法产生的语音的质量和自然度。然而,由于PSOLA需要准确标注音高周期或起始点,这两个因素的误差将极大地影响合成语音的质量。
       
       后来,人们对语音合成技术进行了深入的研究,并利用 SPSS(统计参数语音合成)模型来提高合成语音的自然度。典型的例子是基于 hmm(隐马尔可夫)的合成方法和基于 dl(深度学习)的合成方法。大量的实验结果表明,这些模型合成的语音在语音质量和自然度方面都有很大的提高。
       

    2.3 传统语音合成技术

     2.3.1 拼接式语音合成

       根据输入的文本所分析的上下文信息,从预先录制并标注好的语音语料库中选择合适的语音单元,并将选定的语音单元连接起来得到最终的合成语音。
       
       基于线性预测系数拼接:主要是利用语音的LPC编码来减少语音信号所占用的存储容量,合成也是一个简单的解码和拼接过程。这种方法合成的语音对于单个单词来说是非常自然的,因为编解码器保留了语音的大部分信息。然而,由于人们实际说话时词语的自然流动并不仅仅是单个孤立的言语单元的简单串联,整体效果会受到拼接点的影响。
       
       基于PSOLA拼接:根据目标语境调整连接单元的韵律,使最终合成的波形既保持了原始语音的语音质量,又使连接单元的韵律特征符合目标语境。然而,这种方法也有很多缺陷:合成语音的质量会受到音高周期或起始点的影响;能否保持平稳过渡的问题尚未解决。

     2.3.2 参数式语音合成

       参数语音合成是指利用数字信号处理技术从文本中合成语音的方法。
       
       该方法将人的发声过程看作是一个模拟过程,利用声门状态源来激发一个时变数字滤波器来表征信道的共振特性。通过调整滤波器的参数,可以合成各种类型的语音。
       
       典型的方法有语音器官参数合成、共振峰参数合成、基于hmm的语音合成和基于深度神经网络(DNN)的语音合成。
       

  3 基于统计参数的语音合成技术

       一个完整的SPSS系统一般由三个模块组成:文本分析模块、使用统计模型预测基频(F0)、谱参数、时长等声学特征参数的参数预测模块、语音合成模块。
       
       SPSS通常分为两个阶段:训练阶段和综合阶段。
       在训练阶段,首先从语料库中提取F0、光谱参数等声学特征参数,然后根据文本分析模块的语言特征和提取的声学特征参数训练统计声学模型。
       在合成阶段,利用训练好的声学模型,在语言特征的指导下对声学特征参数进行预测。最后,利用声码器根据预测的声学特征参数合成语音。
       

    3.1 文本分析模块

       主要对输入文本进行预处理,并将其转换为语音合成系统使用的语言特征,包括文本规范化、自动分词、字素音素转换。这些语言特征通常包括音素、音节、词、短语和句子层面的特征。
       
       传统的文本分析方法主要是基于规则的,需要花费大量的时间来收集和学习这些规则。随着数据挖掘技术的飞速发展,一些数据驱动的方法也逐渐发展起来,如bigram方法、trigram方法、HMM-based方法和DNN-based方法。在使用后两种方法进行文本分析时,Festival系统通常用于对语料库进行音素分割和标注,主要包括五个层次:音素、音节、单词、短语和句子。
       

    3.2 参数预测模块

       根据文本分析模块的输出,预测目标语音的声学特征参数。
       
       对于SPSS,通常有两种参数预测方法:基于hmm的参数预测和基于dnn的参数预测。
       

     3.2.1 基于隐马尔可夫的参数预测

       基于hmm的参数预测方法主要从训练的hmm中生成F0序列和谱参数。该算法是在高斯分布序列的条件下,用最大似然估计(MLE)算法计算声特征序列来实现的。
       

     3.2.2 基于深度神经网络的参数预测

       特定音素的声学特征会受到音素相关的语境信息的影响,这说明上下文信息在预测声学特征中起着重要作用。研究人员表明,人类语音生成过程通常使用层次结构将上下文信息转换为语音波形。受此启发,在语音合成中引入了深度结构模型来预测语音特征参数。
       
       与基于hmm的参数预测方法相比,基于dnn的方法不仅可以将复杂的语言特征映射到声学特征参数中,还可以利用长、短期上下文信息对帧间的相关性进行建模,提高了语音合成的质量。
       

   3.3 基于声码器的语音合成模块

       根据参数预测模块的输出,利用特定的合成算法生成目标语音的波形。
       
       传统的语音合成方法通常使用HTS_engine合成器,因为它具有自由、快速的语音合成功能。但合成的语音通常听起来很单调。
       
       STRAIGHT算法被提出来用以提高语音的质量,并在各种研究中使用,使其易于处理语音。其他常见方法,如相位码、PSOLA和正弦模型。
       
       为满足高质量语音合成的要求,开发了Legacy-STRAIGHT和TANDEM-STRAIGHT算法。
       
       虽然这些方法可以合成出良好的语音质量,但合成速度仍不能满足实际应用场景。为了解决这个问题,实时方法仍然是一个热门的研究课题。
       

  4 基于深度学习的语音合成技术

       基于dl的方法直接使用深度神经网络进行从语言特征到声学特征的映射,深度神经网络在学习数据固有特征方面已经被证明是非常有效的。在长期采用基于dl的语音合成方法的研究传统中,人们提出了许多模型,下表将介绍一些方法的优缺点。

方法优点缺点
HMM该系统具有良好的鲁棒性和灵活性声学特征被过度平滑,使生成的语音声音变得模糊
RBM能否更好地描述高维谱包络分布,缓解过光滑问题训练数据的碎片化问题
DBN不会遇到训练数据的碎片问题,减少过平滑问题生成的语音质量会降低
DMDN能解决单模态问题只能利用有限的上下文和每个框架独立映射
DBLSTM能充分利用上下文信息还需要声码器来合成波形
WaveNet能产生高质量的语音波形训练太慢,前端的误差会影响合成效果
Tacotron完全端到端的语音合成模型,可以产生高质量的语音波形训练模型成本高
CNN能快速训练模型语音质量可能比较低

   4.1 限制性玻尔兹曼机器

       近年来,受限玻尔兹曼机(RBM, Restrictive Boltzmann Machines)被广泛应用于语音信号的建模,如语音识别、谱图编码和声-发音反转映射。在这些应用中,RBM经常被用于deep auto-encoders (DAEs)的预训练或DNNs。在语音合成领域,RBM通常被视为一种密度模型,用于生成声参数的谱包络。
       
       为了缓解基于hmm的语音合成中的过光滑问题,采用该方法可以更好地描述高维谱包络分布。但该方法仍然不能解决传统基于HMM的方法所遇到的训练数据碎片化问题。
       

   4.2 多分布深度信念网络

       多分布深度信念网络(DBN,Deep Belief Networks)是一种对上下文信息和声学特征的联合分布进行建模的方法。它可以同时用三种RBMs对连续光谱、离散清音/浊音(V/UV)参数和多空间F0进行建模。
       
       该方法的优点是在同一个网络中训练所有的音节,用所有的数据训练相同的RBM或DBN。因此,它不会受到训练数据碎片问题的困扰。另外,直接对音节的声学特征参数建模可以描述音节各帧之间的相关性以及同一帧中不同维度之间的相关性。该方法避免了相同音节对应帧的平均,从而减少了过光滑现象。
       
       但由于该方法不区分不同语境下的音节,因此仍然对同一音节对应的声学参数取平均值。此外,与高维谱参数相比,一维F0s对模型的贡献较小,使得预测的F0s中含有大量噪声,降低了合成语音的质量。
       

   4.3 深度混合密度网络

       虽然基于dnn的语音合成模型可以合成出高自然度的语音,但对声学特征参数的建模仍存在一定的局限性,如目标函数的模态单一,无法预测方差等。针对这些问题,提出了基于深度混合密度网络(DMDN,Deep Mixture Density Networks)的参数预测方法,该方法利用混合密度输出层来预测给定输入特征下输出特征的概率分布。
       
       混合密度网络(MDNs)不仅可以将输入特征映射到GMM参数(如混合权值、均值和方差),而且在给定输入特征x的情况下,给出了y的联合概率密度函数。
       
       使用deep MDN预测语音参数时,首先将文本提示转换为语言特征序列{x1, x2,…, xT},然后使用时长预测模型对每个语音单元的时长进行预测。利用前向算法和训练后的深度MDN估计声特征,包括F0、谱参数及其对应的动态特征。最后,通过参数生成算法生成语音特征参数,并用声码器合成语音。
       

   4.4 基于深度双向LSTM 模型

       虽然deep MDN语音合成模型可以解决目标函数的单一模态问题,准确预测声特征参数,提高合成语音的自然度,但仍存在以下问题:首先,MDN只能利用有限的上下文信息,因为它只能为输入特性建模固定的时间跨度(例如,固定数量的前面或后面的上下文);其次,该模型只能进行逐帧映射(例如,每帧映射都是独立的)。为了解决这些问题,提出了一种基于递归神经网络(RNNs)的建模方法。RNN的优点是在将输入映射到输出时能够利用上下文信息。然而,传统的RNN只能访问有限的上下文信息,因为给定输入对隐含层和输出层的影响会随着它在网络中的传播而衰减或爆发。此外,该算法也无法学习长期依赖关系。
       
       为了解决这些问题,的作者引入了一个记忆单元,并提出了长-短期记忆(LSTM)模型。为了充分利用上下文信息,双向LSTM主要用于将输入的语言特征映射到声学特征。
       
       BLSTM-RNN是双向递归神经网络的扩展结构。它用LSTM内存块替换BRNN隐藏层中的单元。有了这些内存块,BLSTM可以存储长时间延迟和短时间延迟的信息,并在机器学习任务中利用向前和向后方向的相关上下文依赖性。通过前向层和后向层,BLSTM可以利用过去和未来的信息进行建模。
       
       在使用基于deep blstm (DBLSTM,Deep Bidirectional LSTM-Based)模型预测声学参数时,首先需要将输入文本提示转换为特征向量,然后使用DBLSTM模型将输入特征映射到声学参数。最后,利用参数生成算法生成声学参数,并用声码器合成相应的语音。
       

   4.5 序列到序列模型

       序列到序列(sequence-to-sequence, seq2seq)神经网络可以将输入序列转换为可能具有不同长度的输出序列,已经应用于机器翻译、语音识别、图像标题生成等多种任务,并取得了很好的效果。由于语音合成是语音识别的逆向过程,seq2seq建模技术最近也被应用到语音合成中。
       
       Char2Wav采用基于位置的注意建立编码器解码器的声学模型。为了解决目前seq2seq模型仍然存在的丢失或重复电话的不稳定性问题,提出了一种针对语音合成的seq2seq声学建模的前向注意方法。
       
       Tacotron是一个具有注意机制的seq2seq模型,它被提出将输入文本映射到mel-谱图,用于语音合成。
       

   4.6 端到端模型

       TTS系统通常由文本分析前端、声学模型和语音合成器组成。由于这些组件是独立训练的,并且依赖大量的领域专业知识,这不仅是费力的,而且每个组件的错误可能会复合。为了解决这些问题,端到端语音合成方法已经成为语音合成领域的主流。
       
       端到端TTS系统(End-to-End)具有以下优点:
              (1)可以在大规模的<文本,语音>对的基础上以最小的人工标注进行训练;
              (2)不需要音素水平比对;
              (3)由于是单一模型,误差不会复合。
       
       下面我们将简要介绍端到端语音合成方法。

     4.6.1 WaveNet

       WaveNet是在图像生成领域应用的PixelCNN或PixelRNN模型的基础上发展而来的,是一种功能强大的原始音频波形生成模型。它是由Deepmind(伦敦,英国)于2016年提出的,开启了端到端语音合成的大门。通过使用DNN模型直接建模波形,它能够产生听起来相对真实的人类声音。
       
       DNN模型是用真实语音录音训练的,它是一种完全概率自回归模型,基于之前生成的所有样本来预测当前音频样本的概率分布。膨胀的因果卷积是波网的重要组成部分,用来保证在生成第t个采样点时,波网只能使用从0到t1的采样点。
       
       虽然WaveNet模型可以产生高质量的音频,但仍然存在以下问题:
              (1)每个采样点的预测总是依赖于之前预测的采样点,速度太慢;
              (2)还依赖于现有TTS前端的语言特征,前端文本分析的错误将直接影响合成效果。
       
       为了解决这些问题,提出了parallel WaveNet提高采样效率:它能够以比实时快20多倍的速度生成高保真语音样本,速度是原 WaveNet模型的1000倍。
       另一种神经模型:Deep Voice,也被提出用相应的神经网络来替代包括文本分析前端、声学模型和语音合成器在内的每个组件。然而,由于每个组件都是独立训练的,所以它不是一个真正的端到端综合。
       

     4.6.2 Tacotron

       Tacotron是一种完全端到端的语音合成模型。该算法能够训练出给定<文本、音频的>对的语音合成模型,从而减轻了对费力的特征工程的需要。此外,由于它是基于文字层次的,几乎可以应用于包括汉语普通话在内的所有语言。
       
       和WaveNet一样,Tacotron模型也是一个生成模型。与WaveNet不同,Tacotron使用seq2seq模型和注意机制将文本映射到语谱图,这是对语音的良好表示。由于声谱图不包含相位信息,系统使用Griffin Lim算法通过迭代地从声谱图中估计相位信息来重建音频。
       
       由于Tacotron是一个完全的端到端模型,它可以直接将输入文本映射到mel谱图,因此受到了研究人员的广泛关注,并提出了各种改进版本。
       
       例如,一些研究人员实现了Tacotron的开放克隆,以再现与原作一样清晰、质量令人满意的语音。有的引入了深度生成模型,如变分自动编码器(VAE),以在连续空间中明确建模说话者状态的潜在表示,并在语音合成中控制说话风格。也有一些将Tacotron和WaveNet结合起来进行语音合成的研究,如Deep Voice 2。
       

     4.6.3 CNNs

       尽管基于tacotron的端到端系统最近取得了良好的性能,但它仍有一个缺点,即存在许多重复单元。这种结构使得训练模型的成本很高,对于没有高性能机器的研究人员来说也不可能进行进一步的研究。
       
       为了解决这个问题,人们提出了很多工作。有的提出了一种具有引导注意力的深度卷积网络,它可以比基于rnn的最先进的神经系统更快地进行训练。有的提出了一种新颖的、全卷积的字符到谱图架构,即Deep Voice 3,用于语音合成,它允许完全并行计算,使训练过程比使用递归单元更快。

       

  5 语音合成未来的发展方向

       与拼接式语音合成方法相比,统计参数语音合成系统可以合成出高清晰度、高自然度的语音。
       由于基于hmm的语音合成模型的局限性(如使用上下文决策树来共享语音参数),合成的语音不够生动,不能满足表达性语音合成的要求。
       DL-based语音合成模型采用完整的上下文信息和分布式表示取代的聚类过程决策树在上下文中和使用多个隐藏层上下文特征映射到高维的声学特性,从而使合成语音的质量优于传统方法。
       然而,基于dl的模型强大的表示能力也带来了一些新的问题。为了达到更好的效果,模型需要更多的隐藏层和节点,这无疑会增加网络中参数的数量,增加网络训练的时间复杂度和空间复杂度。当训练数据不足时,模型通常会出现过拟合。因此,训练网络需要大量的语料库和计算资源。此外,基于dl的模型还需要更多的空间来存储参数。
       
       毫无疑问,现有的端到端模型还远远不够完美。尽管取得了许多成就,但仍存在一些具有挑战性的问题。接下来,我们将讨论一些研究方向。
       
       1. 研究端到端语音合成中隐藏的上下文特征。端到端TTS系统,主要是后端,自提出以来已经达到了最先进的性能。然而,在前端文本分析方面却鲜有进展,该方法提取了语境特征或语言特征,这些特征对于弥合文本与语音之间的鸿沟非常有用。因此,展示端到端语音合成系统中使用何种类型的上下文信息是一个很好的发展方向。
       
       2. 端到端语音合成中的半监督或非监督训练。尽管端到端TTS模型已经取得了很好的效果,但它们通常需要大量高质量的文本、语音数据对,收集起来既昂贵又耗时。利用大量公开的未配对文本和语音记录来提高端到端TTS训练的数据效率具有重要意义。
       
       3. 其他与语音相关的场景的应用。除了本文将文本转化为语音的应用之外,在语音转换、视听语音合成、语音翻译、跨语言语音合成等其他场景中的应用也是一个很好的方向。
       
       4. 软件和硬件的结合。目前,大多数深度神经网络都需要大量的计算。因此,并行化将是提高网络效率不可缺少的一部分。通常,并行化有两种实现方式:一种是机器的并行化;另一种是使用GPU并行化。然而,对于大多数研究人员来说,编写GPU代码仍然是一项耗时费力的工作,因此需要硬件厂商和软件厂商的合作,为行业提供越来越多的智能编程工具。
       

  6 总结

       深度学习能够利用大量的训练数据,已经成为语音合成的重要技术。近年来,对深度学习技术甚至端到端框架的研究越来越多,并取得了最先进的性能。本文对语音合成的研究现状进行了综述,比较了各种方法的优缺点,并讨论了促进语音合成今后发展的可能研究方向。
       

  7 论文引用

Yishuang Ning,Sheng He,Zhiyong Wu,Chunxiao Xing,Liang-Jie Zhang. A
Review of Deep Learning Based Speech Synthesis[J]. Applied
Sciences,2019,9(19).

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值