- interspeech2022
- AIRS korea & CMU
- demo page
abstract
- 语音合成的三大热门方向:端到端,韵律控制,非自回归系统的对齐。
- 本文一次性解决上述三个问题,学习speech的隐层表征,通过performaning tasks(对齐搜索,基频估计,波形生成)。
intro
- VITS是end2end的模型,表现很好。缺点是:无法控制韵律和基频,因为latent vector是随机采样的。
- TriniTTS优点:(1)确定性&可控的韵律;(2)end2end;(3)不需要额外对齐器。
method
post encoder
- post encoder:non-causal wavenet将spec处理成latent representation,不同于VITS(直接将此latent representation送入decoder用于波形生成),TriniTTS此处的post encoder结果仅用于知道prior encoder的结果生成,并使用bridge loss约束。
decoder
- 和VITS一致,decoder使用HiFi-GAN的结构,将 z z z合成波形
- 判别loss/FM loss/reconst loss
pitch control
- 参考FastPitch,控制基频,要能够通过修改控制参数,成比例的控制语音中的基频。
- 分成pitch predictor和pitch encoder:
- pitch predictor通过 h t e x t h_{text} htext预测每个phn的基频,与真实基频求L2 loss;——真实基频 x p i t c h x_{pitch} xpitch由pyin算法提取,norm,然后使用模型得到的对齐结果average。
- pitch encoder:输入 预测的 x p i t c h p x_{pitch}^p xpitchp,编码得到 h p i t c h h_{pitch} hpitch
- h p i t c h h_{pitch} hpitch和 h t e x t h_{text} htext相加,得到中间特征。
Alignment search
- VITS使用DTW进行对齐
- TriniTTS使用attention结构, h t e x t h_{text} htext作为key, x s p e c x_{spec} xspec作为query,学到soft alignment map。加上单向对齐约束,找到最大可能的候选路径。使用CTC loss对所有的候选路径计算forward-sum。
- duration predictor根据得到的对齐信息,预测每个phn的时长。——parallel tacotron2的softDTW
experiment
- LJSpeech用于单人模型;VCTK用于多人模型;
- TriniTTS的自然度比fastpitch好;