【AM】Non-Attentive Tacotron

Non-Attentive Tacotron: Robust and Controllable Neural TTS Synthesis Including Unsupervised Duration Modeling


本文提出了Non-Attentive Tacotron(NAT),基于Tacotron2但是把Decoder与Encoder之间的Attention机制替换成了显式的时长预测。NAT可以用时长标注训练,也可以使用一个细粒度的VAE以无监督或半监督的形式训练。当使用时长标注可以获得时,NAT自然度比Tacotron2稍好一点,但是在稳定性方面,NAT相比Tacotron2有了很大的提升。
本文的主要贡献:

  • 提出了Non-Attentive Tacotron架构,用时长预测和上采样模块替换了原本tacotron2中的attention机制,在自然度相当的前提下明显提升了鲁棒性;
  • 无监督或者半监督的时长训练方式,允许模型用较少的时长标注;
  • 提出了更多的评估指标:unaligned duration ratio (UDR)和ASR word deletion rate (WDR),可以应用大规模的数据对TTS鲁棒性进行评估;
  • 引入高斯上采样提升了合成音频的音质;
  • 支持全局和细粒度的时长控制;

1. Model

模型结构如下图所示。Duration预测模块对encoder的输出上采样,与fastspeech中的直接复制同,本文采用了高斯上采样,在计算loss时,duration以秒为单位,在上采样用到duration时,他们被转换成帧;
在这里插入图片描述

1.1 Gaussian upsampling

高斯上采样过程需要每个token的时长和range parameter。range parameter表示的是当前token的影响范围;duration表示的是当前token持续的时长;二者决定了当前token高斯上采样的分布。上采样结束后,会经过一个transformer中用到的sinusoidal positional embedding。上采样过程如下图所示:
在这里插入图片描述
高斯上采样的好处主要在于他是一个可微的操作,对半监督和无监督的时长模型非常关键,保证梯度可以从mel loss最终流到duration predictor。

1.2 Training loss

训练过程中,loss包括mel loss和duration loss;其中mel loss包括了postnet之前和之后的mel与target mel的L1和L2 loss,duration loss是L2 loss。
在这里插入图片描述

1.3 Unsupervised and semi-supervised duration modeling

一个简单的想法是将duration predictor预测出的duration(而不是真实的duration)用于训练,用一个scale调节duration的和与mel length mismatch,然后再补充一个duration的和与mel length 的loss即可。但是文中说这种方法没有生成令人满意的自然度的语音。最终采用的结构如下图所示。
在这里插入图片描述

2. Experiments

2.1 Naturalness

与GMMA Tacotron2相比,NAT稍好一点。

在这里插入图片描述

2.2 Robustness

鲁棒性有明显提升。
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值