Hierarchical Prosody Modeling for Non-Autoregressive Speech Synthesis

会议:SLT2021
单位:台湾国立
作者:Chung-Ming Chien Hung-yi Lee
demo page

abstract

motivation:TTS模型训练时候可以加入各种预先提取的特征(pitch, energy,etc),但是infer时候准确的预测这些特征还是比较难的。对于非自回归的TTS,提供fine-grained prosody feature本身就减少了TTS任务的复杂度。
method:提出一个层级结构,基于word-level prosody预测phn-level prosody。作者认为,word-level prosody可以更好的建模meaning of the sentence, and the speaker’s intention or sentiment(句子的语义,说话的情绪)。
main contribution:

  • 支出合成质量和prosody预测的准确度之间是trade off的关系;
  • 比较了不同方法提取基频对于语音质量和韵律自然度的关系;
  • 提出层级结构,phn level proosdy conditioned on word-level prosody

introduction

在这里插入图片描述

training:之前工作的prosody features可以从以下方法获得

  • 额外的工具包提取的基频;
  • reference encoder提取的prosody feature,将feature的维度设置的尽可能小,以使其主要包含韵律信息,而不要包含其他的文本相关信息(phn seq会提供)。
    inference:需要生成需要的韵律信息
  • 从phn seq中预测韵律信息;
  • 从word-level features中预测韵律信息;
  • 从ref utt中提取韵律信息进行模仿,而不考虑输入的文本是什么,主要用于风格迁移的任务中。
  • 从先验分布中采样韵律信息。

韵律的特征本身是和语言有关的,之前的工作提出了多层级的韵律建模,但是infer时候prosody emb的生成是和文本无关的,而本文是相关的。我们的模型与任何预训练的词嵌入兼容,因此词级韵律预测受益于广泛开发的从大量未标记文本中预训练的词表示模型。

method

Prosody extraction

从GT mel从提取韵律信息,然后处理成和phn-level feature一样维度的特征,相加之后送入FastSpeech decoder。

Rule-based prosody extractors

提取每一帧的F0和energy,然后按照token duration进行平均(token是phn/word的定义)。具体求平均的方式见ref【7】,然后将平均值量化为256 bins,然后通过LUT的方式转换成prosody embedding。

Neural-based prosody extractors

在这里插入图片描述
根据prosody extractor的结果训练prosody predictor,固定reference encoder的参数,而且在infer的时候不许呀reference encoder。

Hierarchical prosody modeling

在这里插入图片描述

  • word level feature可以比phn-level进行更加准确的韵律预测,但是分辨率低,如果没有足够的信息补充,预测的mel spec会比较模糊。因此设计层级结构,将两个维度的特征结合起来。

experiment

  • 数据集:LJSpeech
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值