tacotron2: Natural TTS Synthesis by Conditioning Wavenet on mel spectrogram predictions

abstract
1. introduction

 wavenet,一个强大的生成网络,直接合成时间域的语音,可以生成比较真实的wav,缺点是它的输入是语言特征,预测的LF0,音素持续时间,但是准备这些输入需要非常专业的知识,比如文本分析系统,鲁棒的词典(发音指导)。
 tacotron简化了语音合成的前端部分,可以通过神经网络从数据中得到想要的语言和声学信息,从而实现character到幅度谱的预测,然后用GL算法估计相位,逆傅立叶变换得到语音。vocoder的部分后续也可以用神经网络(比如wavenet)替代,因为GL合成的语音质量不高而且有 characteristic artifacts。
 本文的工作就是把TTS完全neural network化,之前提出的tacotron和wavenet结合,char—mel----wav。合成语音的真实度很高。
 横向对比:deep voice3方法类似,但是他们的语音质量没有本文好; char2wav是seq2seq的方式,但是使用的中间特征表示不一样,他们用的是传统的vocoder feature,而且网络也不一样。

2. model architecture
2.1. IntermediateFeatureRepresentation

 中间特征选的mel谱,低维的声学表示。mel比波形采样更平滑,因为它在一帧内是不变的,因此也容易用MSE训练。mel filter的划分参考了人耳听觉系统,将fft之后的频率(均匀划分)变成mel band freq(更少),但是低频增强(因为关系到主要的能量,信息可懂度),高频减弱(主要是noise-like的摩擦爆发音)。
 线性谱丢弃了相位信息(有损),可以通过GL这样的算法进行估计,然后IFFT。mel谱有更大的失真,因此想要恢复有挑战。但是相比于wavenet中用到的语言和声学信息,mel特征的恢复相对比较简单,因此可以认为需要的wavenet可以更简化一些。

2.2. SpectrogramPredictionNetwork

 attention是把encoder sequence编码成一个定长的序列,然后输给每一个decoder step。tacotron1用的是Bahdanau(加性attention),tacotron2用location sensitive attention,把之前decoder step的attention权重累积,作为一个额外的权重。可以缓解重复或者缺词的情况。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值