TriniTTS: Pitch-controllable End-to-end TTS without External Aligner

abstract

  • 语音合成的三大热门方向:端到端,韵律控制,非自回归系统的对齐。
  • 本文一次性解决上述三个问题,学习speech的隐层表征,通过performaning tasks(对齐搜索,基频估计,波形生成)。

intro

  • VITS是end2end的模型,表现很好。缺点是:无法控制韵律和基频,因为latent vector是随机采样的。
  • TriniTTS优点:(1)确定性&可控的韵律;(2)end2end;(3)不需要额外对齐器。

method

在这里插入图片描述

post encoder

  • post encoder:non-causal wavenet将spec处理成latent representation,不同于VITS(直接将此latent representation送入decoder用于波形生成),TriniTTS此处的post encoder结果仅用于知道prior encoder的结果生成,并使用bridge loss约束。
    在这里插入图片描述

decoder

  • 和VITS一致,decoder使用HiFi-GAN的结构,将 z z z合成波形
  • 判别loss/FM loss/reconst loss

pitch control

  • 参考FastPitch,控制基频,要能够通过修改控制参数,成比例的控制语音中的基频。
  • 分成pitch predictor和pitch encoder:
    • pitch predictor通过 h t e x t h_{text} htext预测每个phn的基频,与真实基频求L2 loss;——真实基频 x p i t c h x_{pitch} xpitch由pyin算法提取,norm,然后使用模型得到的对齐结果average。
    • pitch encoder:输入 预测的 x p i t c h p x_{pitch}^p xpitchp,编码得到 h p i t c h h_{pitch} hpitch
  • h p i t c h h_{pitch} hpitch h t e x t h_{text} htext相加,得到中间特征。

Alignment search

  • VITS使用DTW进行对齐
  • TriniTTS使用attention结构, h t e x t h_{text} htext作为key, x s p e c x_{spec} xspec作为query,学到soft alignment map。加上单向对齐约束,找到最大可能的候选路径。使用CTC loss对所有的候选路径计算forward-sum。
  • duration predictor根据得到的对齐信息,预测每个phn的时长。——parallel tacotron2的softDTW

experiment

  • LJSpeech用于单人模型;VCTK用于多人模型;

在这里插入图片描述

  • TriniTTS的自然度比fastpitch好;

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值