Fine-grained prosody modeling in neural speech synthesis using ToBI representation

作者:Yuxiang Zou
单位:Bytedance AI

abstract

  • ToBI (Tones and Break Indices),英文的韵律标记
    本文在做英文语音合成,引入ToBI (Tones and Break Indices)进行细粒度的韵律建模 ,使用预训练的NLP模型ELECTRA,基于ToBI标签finetune,预测四种标签。然后和tacotron系统配合,完成韵律粒度更细致可控的英文合成。

proposed method

在这里插入图片描述

  • 包含两个部分,文本前端(预测ToBI label),以及TTS声学模型。

front-end

在这里插入图片描述
预测四种标记(word level),因此是一个序列建模的问题

  • Pitch accents 对单词的音节标记轻/重读音, L ∗ / H ∗ / L ∗ + H / H ∗ + L L^* /H^*/L^*+H/H^*+L L/H/L+H/H+L
  • Boundary tones:每一个完整的语调短语边界,默认是 H % / L % H\%/L\% H%/L%
  • Phrase accents:pitch accent和boundary tone的边界,默认是 H − / L − H-/L- H/L
  • Break indices:4/3/2/1,不同程度的停顿

虽然无监督的方法在NLP任务中已经广泛应用,但是因为ToBI的数据量比较少,因此本任务采用ELECTRA结构。ELECTRA是一个预训练的text encoder,后边会接判别器,判断输入的token是real or false。对ELECTRA进行finetune,输入768-d的WordPiece token ,CE loss预测上述四种label。

TTS

在这里插入图片描述
-tacotron结构

  • 因为输入的韵律格式有多种粒度,因此可以更加自如的进行韵律控制。

experiment

  • dataset:1.5w句的native speaker,专家标注的ToBI标签
    在这里插入图片描述
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值