基于语音合成的韵律表示

传统韵律的表达方式一般由语言学家定义,分为重读、音调、节奏感等,这种方式需要通过标签数据去学习韵律的表示。大量的标签数据往往消耗较多的人力,且难以保持高度的标注一致性。探索一种基于深度学习自动学习韵律特征表示的方式,对应用场景如语音合成、发音韵律评估、韵律反馈等具有较大的意义。本文将对现有的语音合成应用中的韵律表示进行阐释。

图 1 Deep voice 1

 

Deep voice系列由百度出品,为了使合成语音更加自然,deep voice1和deep voice2 [1][2]中都加入了韵律相关的建模。Deep voice 1将F0与duration进行单独建模,在合成阶段融合这两个模型的结果进行语音合成,deep voice2为了简化模型,将语音合成进行端到端建模,在模型中加入duration预测和F0预测。

图 2 Deep voice 2

 

图 3 Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron

Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron基于Tacotron [6]语音合成模型,在其中加入学习好的韵律embedding。其中韵律embedding主要通过输入参考音频,经过多层encoder,输入到Tacotron中,进行重构损失计算。最后提出多项指标如参考音频与合成音频F0,mel系数的差异,评估学习到的韵律embedding是否有效。实验中发现,如果采用与参考音频不相同的文本,韵律将会变动很大,表明学到的韵律表示中除了包含韵律相关的因素,也包含文本相关的因素,且学习到的韵律表示更多是模仿复制参考音频,没有学到相对韵律变化。这里面有个思考的点是为什么会学习到文本相关因素,在加入了包含text embedding模型后。是不是因为文本 embedding和韵律embedding同时学习,没有达到相互排斥作用。

目前解决之前出现的问题主要有两种做法。

文献Uncovering Latent Style Factors for Expressive Speech Synthesis随机初始化多个风格向量,与文本向量进行加权相加,其中权重可由网络自动训练得到。在Tacotron模型结构的基础上,在解码出添加两者的加权和。这种方法解决了两个问题:1、韵律表示包含信息杂乱:首先将韵律分解成多种风格进行加权求和,每种风格类似于韵律的原子表示,学习到更有效的韵律特征;2、韵律表示包含文本信息:将文本信息与韵律表示进行加权,达到两者因素互斥的效果。文中解释说该模型有效结合了基于文本表示的后验信息(给定文本)与基于韵律表示的先验信息。

图 4 Uncovering Latent Style Factors for Expressive Speech Synthesis

文献Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis在Tacotron的基础上,加入了参考音频进行韵律表示的学习,与[4]类似,将韵律表示进一步分解成多种风格,对多种风格进行加权求和。该方法中将学到的韵律表示输入到文本encoder中,可以排除文本对韵律表示学习的影响。同时,由于输入参考音频进行韵律学习,学习到的韵律表示与训练数据将有很大的关系。实验做了几组实验:1、不同噪声的参考音频等。经过编码,学到的韵律表示经过聚类可以将音频分为噪声和非噪声2、不同发音者的参考音频,经过参考encoder的到的风格表示,经过聚类,可以聚类分成不同发音者。结果如图6所示。3、英语语音识别中,混杂少量西班牙语,由于西班牙语音调较高,使用西班牙参考音频,对英语文本进行迁移,将合成文本混合到语料中,可以降低wer。

图 5 Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis

图 6 噪声音频聚类与多人说话聚类实验图

   

本文介绍了语音合成中的韵律表示研究,为了提取高质量的韵律embedding,可以人工添加一些有效特征如F0、duration进行训练,也可以通过分解韵律表示提取多个有效的韵律表示原子特征,同时需要排除文本、人物身份特征等因素的影响。

[1] Deep Voice: Real-time Neural Text-to-Speech

[2] Deep Voice 2 Multi-Speaker Neural Text-to-Speech

[3] Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron

[4] Uncovering Latent Style Factors for Expressive Speech Synthesis

[5] Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis

[6] Tacotron: Towards End-to-End Speech Synthesis

  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值