语音合成(TTS)论文优选:feathertts:robust and efficent attention based neural tts

声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。欢迎关注微信公众号:低调奋进

FEATHERTTS: ROBUST AND EFFICIENT ATTENTION BASED NEURAL TTS

本文章是腾讯继featherwave之后又一篇feather系列文章,featherwave是基于multiband的声码器,而本文章是声学模型,更新与2020.11.02。具体链接https://arxiv.org/pdf/2011.00935.pdf

1 背景

虽然现在的end-to-end的自回归TTS合成音频质量很高,但依然存在诸多问题。比如attention(目前tacotron2使用attention有content-based attention, hybrid location-sensitive attention, GMM ,GMMv2b等等)对齐(音素级对齐帧级)不够,造成合成任务提前终结或者出现漏字拖音的情况。本文提出了基于新的GMM attention的系统FeatherTTS。其主要贡献点 1)介绍具有完全单调性的Gaussion attention使其对齐更好更快。2)删除tacotron2的stop token预测,引入attention stop loss(AVL)。3) 对decoder部分的LSTM使用参数稀疏化,使推理速度更快,实时率更高。

2 详细系统结构

该系统是基于tacotron2架构,详细结构如下图所示,一方面删除了stop token的预测,添加了attention stop loss模块进行合成时常控制。另一方面删除掉原来基于卷积的postnet换成基于LSTM的time delayed,本文章实验的delayed为5帧(这个模块在将来可以尝试使用一下)。其中为了推理加速,该文章对decoder的lstm使用sparse操作,稀疏90%参数,不过对于稀疏化的训练,以前的同事做了好几月,合成效果一般。主要刚开始很难调参数。最后该文章主要对a't'tention部分进行设计。

语音合成(TTS)论文优选:FEATHERTTS

现在的tacotron2 使用的attention是hybrid attaention ,先计算权重,然后计算context vector

语音合成(TTS)论文优选:FEATHERTTS

而GMMv2b的attention,采用如下的方式,该attention可以合成较长的语句

语音合成(TTS)论文优选:FEATHERTTS

本文提到为解决目前GMM的单调性不完全所采用的改进方案,这个看起来很简单。

语音合成(TTS)论文优选:FEATHERTTS

3 实验结果

文章主要对比了三个方面,MOS 值,错词率WER和实时加速。从Table 1可知,本文提出的方法的合成质量与原来相当,但WER的下降了很多(Table 2),从4%下降到0.9%,另外由于使用稀疏化TeatherTTS比tacotron2快了3.5倍(Table 3)。

语音合成(TTS)论文优选:FEATHERTTS

语音合成(TTS)论文优选:FEATHERTTS

4 总结

本文章主要贡献一方面优化GMM attention使其对齐更准确,另外采用sparse进行参数稀疏化进行加速(decoder双层LSTM 1024开销很大)。但从实践来说,sparse同事调了很久,其难度还是很大。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

我叫永强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值