Tacotron2: NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS阅读笔记

Tacotron2: NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS

文章于2018年2月发表

在这里插入图片描述

Tacotron2与Tacotron1对比,,模型基本框架相似,主要改变为:

  1. Encoder: 3层包含512个5X1滤波器的卷积层,一个双向512单元的LSTM层,来代替tacotron1中的CBHG模块,简化了encoder模块;
  2. 使用location sensitive attention改进之前的attention机制,以有效减少漏音发生的概率,因为TTS中每次alignment的位置,应该是在上次alignment的附近,而不是从memory的所有单元中寻找。
  3. 新增Stop Token,即增加了语音结束位置的预测 损失,来判断decoder是否结束预测输出,以缓解语音合成过程中出现尾音的问题,同时有助于加快收敛;分类问题,概率阈值是个问题。
  4. Post-net:使用5层卷积层来代替CBHG模块;
  5. Vocoder:改进的WaveNet。
Tacotron1Tacotron2
Inputcharactercharacter
encoderPrenet + CBHGConv + BiLSTM
attentionsoft alignmentlocation sensitive attention(减少漏音问题)
decoderresidual GRUsLSTM with zoneout
stop tokennoyes(减少尾音问题)
targetlinear spectrogrammel spectrogram
vocoderGriffin-LimWaveNet
lossl1l2

欢迎进群交流~

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值