2020-08-05

STATISTICAL PARAMETRIC SPEECH SYNTHESIS USING DEEP NEURAL NETWORKS
基于深度神经网络的统计参数语音合成

简单翻译参考,请勿深究

ABSTRACT
统计参数语音合成的常规方法通常使用决策树聚类的上下文相关隐马尔可夫模型(HMM)来表示给定文本的语音参数的概率密度。根据概率密度生成语音参数,以最大化其输出概率,然后根据生成的参数重建语音波形。这种方法是相当有效的,但是有一些局限性,例如 决策树无法有效地建模复杂的上下文相关性。 本文研究了基于深度神经网络(DNN)的替代方案。 输入文本及其声音实现之间的关系由DNN建模。 DNN的使用可以解决传统方法的一些局限性。 实验结果表明,基于DNN的系统在具有相同数量参数的情况下优于基于HMM的系统。

索引词-统计参数语音合成; 隐马尔可夫模型; 深度神经网络

  1. INTRODUCTION在过去的十年中,基于隐马尔可夫模型(HMM)[1]的统计参数语音合成已经越来越流行。 与串联语音合成方法[2]相比,此方法具有多种优势,例如更改其语音特性的灵活性[3-6],占用空间小[7-9]和鲁棒性[10]。 但是,它的主要局限性在于合成语音的质量。 Zen等。 [11]强调了降低合成语音质量的三个主要因素:声码编码,声学模型的准确性和过度平滑。 本文讨论了声学模型的准确性。

  2. 在统计参数语音合成的声学建模中,已经考虑到许多影响语音的语境因素,包括语音,语言和语法因素。 在一个典型的系统中,通常有大约50种不同类型的上下文[12]。 因此,对这些复杂的上下文依存关系进行有效建模是统计参数语音合成的最关键问题之一。 在基于HMM的统计参数语音合成中处理上下文的标准方法是对上下文的每个单独组合使用不同的HMM,称为上下文相关HMM。 可用的训练数据量通常不足以稳健地估计所有上下文相关的HMM,因为很少有足够的数据来覆盖所需的所有上下文组合。 为了解决这些问题,基于自顶向下决策树的上下文聚类被广泛使用[13]。 在这种方法中,上下文相关的HMM的状态被分组为“集群”,并且每个集群内的分布参数被共享。 通过检查每个HMM的上下文组合来将HMM分配给集群{此处转页码}通过二叉决策树的HMM,其中一个与上下文相关的二元问题与每个非终端节点相关联。 簇的数量,即终端节点的数量,决定了模型的复杂性。 通过依次选择产生训练数据的对数似然增益最大的问题来构造决策树。 使用对数似然增益的预定阈值,模型复杂度损失[14,15]或交叉验证[16,17]来控制树的大小。 通过使用上下文相关的问题和状态参数共享,可以有效地解决看不见的上下文和数据稀疏性问题。 由于该方法已成功用于语音识别,因此基于HMM的统计参数语音合成自然会采用类似的方法来建模非常丰富的上下文。

  3. 尽管决策树聚类的上下文相关HMM在统计参数语音合成中可以合理有效地工作,但仍存在一些局限性。 首先,通过决策树来表达诸如XOR,奇偶校验或多路复用问题之类的复杂上下文依赖关系效率低下[18]。 为了代表这种情况,决策树将过大。 其次,该方法划分输入空间并为每个区域使用单独的参数,每个区域与决策树的终端节点相关联。 这导致了训练数据的碎片化,并减少了可用于聚类其他上下文和估计分布的数据量[19]。 拥有过大的树和碎片化的训练数据将导致过度拟合并降低合成语音的质量。 为了解决这些限制,本文研究了一种基于深度架构的替代方案[20]。 基于HMM的统计参数语音合成中的决策树执行从文本提取的语言上下文到语音参数的概率密度的映射。 在这里,决策树被深层神经网络(DNN)取代。 直到最近,具有一个隐藏层的神经网络仍很流行,因为如果它们在隐藏层中有足够的单位,它们就可以表示任意函数。 尽管已知具有多个隐藏层的神经网络可以比具有一个隐藏层的神经网络更有效地表示某些功能,但是由于其计算成本,学习此类网络是不切实际的。 但是,最近在硬件(例如GPU)和软件(例如[21])方面的进展使我们能够从大量的训练数据中训练DNN。 深度神经网络在包括语音识别[22]和听觉发音反演映射[23]在内的各种机器学习领域中,都比常规方法取得了很大的进步。 请注意,自90年代以来(例如[24]),NN已用于语音合成中。

  4. 本文的组织如下。 第2节比较了决策树和DNN之间的区别。 第3节介绍了基于DNN的统计参数语音合成框架。 实验结果列在第4节中。结论在最后一节中显示。

    1. DEEP NEURAL NETWORK 这里的架构深度是指所学习的函数中非线性运算的组合位置的数量。 众所周知,大多数传统的学习算法都对应于浅层次结构(3级)[20]。 例如,决策树和具有1个隐藏层的神经网络都可以看作具有2个层次。1Boosting [25],树交叉点[19、26、27]或决策树集群专家的产品[28]加 基础学习者一个级别(即3个级别)。 DNN是具有多个隐藏层的神经网络,是深度架构的典型实现。 通过将多个隐藏层添加到神经网络中,我们可以拥有一个深层次的体系结构(添加一层会导致具有更高的层次)。
  5. DNN的特性与决策树的特性对比如下:决策树无法有效表达输入功能的复杂功能,例如XOR,d位奇偶校验功能或mul tiplex问题[18]。 为了代表这种情况,决策树将过大。 另一方面,它们可以由DNN紧凑地表示[20]。

  6. 决策树依赖于输入空间的分区,与终端节点关联的每个区域都有一组单独的参数。 这导致每个区域的数据量减少并且泛化不佳。 Yu等。 结果表明,在建立决策树时,“弱”的输入功能(如阅读语音中的单词级重点)被丢弃了[29]。从所有训练数据中训练权重后,DNN可以提供更好的概括性。 它们还提供了将高维,不同特征作为输入的内容。

  7. 通过反向传播训练DNN通常比构建决策树需要大量的计算。 在预测阶段,DNN需要在每一层进行矩阵乘法,但是决策树只需要使用输入特征的子集从其根到终端节点遍历树即可。

  8. 决策树归纳法可以产生可解释的规则,而DNN中的权重更难解释

    1. DNN-BASED SPEECH SYNTHESIS 基于DNN的语音合成 受人类语音产生系统的启发,该系统在将信息从语言层次转换为波形层次时具有分层的层次结构[30],本文采用了一种深层架构来解决语音合成问题。在这里插入图片描述
  9. 图1说明了基于DNN的语音合成框架。 首先将要合成的给定文本转换为输入特征序列fxtng,其中xtn表示帧t处的第n个输入特征。 输入功能包括对有关语言环境(例如is-current-phoneme-aa?)和数值(例如短语中的单词数量,当前音素中当前帧的相对位置以及持续时间)的问题的二进制答案。 当前的音素)。

  10. 然后,输入特征由经过训练的DNN使用正向传播映射到输出特征fytmg,其中ytm表示在帧t处的第m个输出特征。 输出特征包括光谱和激励参数及其时间导数(动态特征)[31]。 可以使用从训练数据中提取的输入和输出特征对来训练DNN的权重。 与基于HMM的方法一样,可以生成语音参数; 通过将来自DNN的预测输出特征设置为均值向量并将来自所有训练数据的输出特征的预先计算的方差设置为协方差矩阵,语音参数生成算法[32]可以生成令人满意的语音参数特征的平滑轨迹 静态和动态功能的统计信息。 最后,波形合成模块输出给定语音参数的合成波形。

  11. 请注意,基于DNN的系统的文本分析,语音参数生成和波形合成模块可以与基于HMM的模块共享,即仅需要替换从上下文相关的标签到统计信息的映射模块。

  12. 1决策树对输入要素空间的划分可以用OR和AND运算层的组合表示

  13. 2随着˛增大,决策树的大小减小。 典型的基于HMM的语音合成系统使用D1。

  14. 3每个Mel倒谱,对数F0和频带非周期性的叶节点分别具有240、9和30个参数(均值,方差和MSD权重)。

  15. 4我们还尝试通过应用诸如“短语中的单词数量少于5个”之类的问题将数字特征编码为二进制特征。 一项初步实验表明,直接使用数字特征比将它们编码为二进制特征更有效。

  16. 5尽管线性激活函数在基于DNN的版本中很流行,但我们的初步实验表明,在输出层具有S型激活函数的DNN始终优于那些具有Sigmoid激活函数的DNN。

  17. 6在本实验中未考虑考虑全局方差的生成算法[38]。

  18. 7这些标准与合成语音的自然性没有高度关联。 但是,它们已用于客观地测量声学模型的预测精度。

  19. 8Duration也可以通过单独的DNN进行预测。

  20. 9通过更改时间信息的编码方案,也可以切换到状态或音素。

    1. EXPERIMENTS
  21. 4.1. Experimental conditions 实验条件使用来自女专业演讲者的美国英语语音数据来训练依赖于演讲者的基于HMM和基于DNN的统计参数语音合成器。 训练数据包括大约33000话语。 语音分析条件和模型拓扑与Nitech-HTS 2005 [33]系统所使用的相似。 语音数据从48 kHz采样降到16 kHz采样,然后是40个Mel倒谱系数[34],对数基频(log F0)值和5频段非周期性(0-1、1、2, 每5 ms提取2–4、4–6、6–8 kHz)[33]。 每个观察向量由40个Mel倒谱系数,log F0和5个带非周期性组成,它们的delta和delta delta特征(3(40 C 1 C 5)D 138)。 使用了五态,从左到右,无跳跃的隐藏半马尔可夫模型(HSMM)[35]。 要建模由有声和无声观测组成的对数F0序列,,使用了多空间概率分布(MSD)[36]。

  22. 基于决策树的上下文聚类的问题数量为2554。通过更改最小描述长度(MDL)的模型复杂度惩罚项的比例因子˛,可以控制基于HMM的系统中决策树的大小。 )准则[14](˛D 16; 8; 4; 2; 1; 0:5; 0:375;或0:25).2当˛D 1时,Mel倒谱的叶节点数,log F0 ,带的非周期性分别为12 342、26 209和401(总共3 209 991个参数3)。

  23. 基于DNN的系统的输入特征包括342个用于分类语言环境的二进制特征(例如音素,重音符号)和25个用于数字语言环境的数字特征(例如单词,位置中的音节数) 4除了语言环境相关的输入特征外,还有3个用于当前音素中当前帧的粗编码位置的数字特征和1个用于当前段持续时间的数字特征。 用过的。 输出功能与基于HMM的系统中使用的功能基本相同。 为了通过DNN对日志F0序列进行建模,使用了具有显式发声建模方法的连续F0 [37]。 浊音/清音二进制值已添加到输出功能,并且已对浊音帧中的日志F0值进行了插值。 为了降低计算成本,从训练数据中删除了80%的静音帧。 DNN的权重被随机初始化,然后使用基于最小批量随机梯度下降(SGD)的GPU实现的反向传播算法的GPU实现进行优化,以最小化训练数据的输出特征和预测值之间的均方误差。 DNN训练数据中的输入和输出特征均已标准化; 输入特征被标准化为具有零均值单位方差,而输出特征则根据训练数据中的最小值和最大值被标准化为0.01-0.99。 乙状结肠激活功能用于隐藏层和输出层。一个训练了同时模拟光谱和激发参数的网络。

  24. 使用语音参数生成算法从模型中生成评估语句的语音参数[32]。6在倒谱域中基于后置滤波的频谱增强[39]用于提高合成语音的自然性。 根据生成的语音参数,使用源滤波器模型合成语音波形。 为了客观地评估基于HMM和DNN的系统的性能,Mel倒谱失真(dB)[40],线性猿周期失真(dB),浊音/浊音错误率(%)和均方根误差(RMSE) )中使用log F0。7在进行客观和主观评估时,使用了自然语音的分割(音素持续时间)。在训练数据中未使用的8 173语音被用于评估。

  25. 图2.自然语音的第5次Mel倒谱系数的轨迹以及由基于HMM和DNN的系统预测的轨迹。

  26. 4.2. Objective evaluation 客观评价图2描绘了基于HMM和DNN的系统预测的自然语音的第5个Mel倒谱系数的轨迹。 从图中可以看出,两个系统都可以预测给定文本的合理语音参数轨迹。

  27. 在客观评估中,我们研究了DNN的预测性能与体系结构之间的关系。 层数(1、2、3、4或5)和每层的单位(256、512、1 024或2 048)。 图3绘制了实验结果。 基于DNN的系统在浊音/清音分类和非周期性预测方面始终优于基于HMM的系统。

  28. 基于DNN的多层系统在Mel倒谱失真方面类似于或优于基于HMM的系统。 另一方面,在大多数情况下,基于HMM的系统在log F0预测方面优于基于DNN的系统。 当前,所有清音帧都被插值并建模为浊音帧。 我们预计该方案会降低log F0的预测性能,因为这些内插帧可能会对估计的DNN产生偏差。 对于梅尔倒谱和非周期性预测,与每层具有更多单元相比,具有多层往往能更好地工作。

  29. 图3. l 频带非周期性失真(dB),浊音/浊音错误率(%),均方根误差(RMSE),预测的语音参数的梅尔倒谱失真(dB) 。 请注意,与绘制基于DNN的系统的直线上的点相关的数字表示图层的数量。

  30. 基于HMM和DNN的系统预测的语音参数的 频带非周期性失真(dB), 浊音/浊音错误率(%), 均方根误差(RMSE) 和语音参数的梅尔倒谱失真(dB) 。

  31. 请注意,与绘制基于DNN的系统的直线上的点相关的数字表示图层的数量。

  32. 4.3. Subjective evaluation

  33. 主观评估

  34. 为了比较基于DNN的系统和基于HMM的系统的性能,进行了主观偏好听觉测试。 测试句子的总数为173。一个对象最多可以评估30对,它们是从每个对象的测试句子中随机选择的。 每对由五名受试者进行评估。 受试者使用耳机。 听完每一对样本后,要求受试者选择他们喜欢的样本,而如果他们没有任何偏好,他们可以选择“中性”。 在该实验中,比较了具有相似数量参数的基于HMM和基于DNN的系统。 基于DNN的系统具有四个隐藏层,每个层具有不同数量的单位(256、512或1,024)。

  35. 表1.来自HMM和基于DNN的系统的语音样本之间的偏好分数(%)。 在p <0.01级别获得明显更好的偏好的系统使用黑体。(我发现都是DNN)

  36. HMM DNN(˛)(#layers #units)中性p值z值15.8(16)38.5(4 256)45.7 <106 -9.9 16.1(4)27.2(4 512)56.8 <106- 5.1 12.7(1)36.6(4 1 024)50.7 <10 4 6 -11.5表1显示了实验结果。 从表中可以看出,在所有三种模型尺寸中,基于DNN的系统明显优于基于HMM的系统。 受试者报告说,基于DNN的系统没有那么沉闷。 我们期望通过基于DNN的系统更好地预测Mel倒谱系数促进了偏好。(次页码)

  37. 4.结论CONCLUSIONS 本文研究了使用DNN进行语音合成的方法。 基于DNN的方法有可能解决传统决策树聚类的基于上下文的基于HMM的方法中的局限性,例如在表达复杂的上下文相关性方面效率低下,分割训练数据以及完全忽略语言输入特征等 没有出现在决策树中。 客观评估表明,深度结构的使用提高了基于神经网络的系统的光谱和激发参数预测性能。 此外,基于DNN的系统比基于HMM的系统具有更好的偏好,而基于HMM的系统在主观听力测试中具有相似数量的参数。 这些实验结果表明了基于DNN的方法在统计参数语音合成中的潜力。

  38. 与基于DNN的系统相比,基于HMM的系统的优势之一是降低了计算成本。 在综合时,基于HMM的系统遍历决策树以找到每个状态的统计信息。 另一方面,本文中基于DNN的系统按照从输入到输出的形式进行映射,其中包括每个帧上的许多算术运算。9未来的工作包括减少基于DNN的系统中的计算,并增加 更多的功能,包括诸如强调之类的弱功能,以及探索更好的log F0建模方案。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值