声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。欢迎关注微信公众号:低调奋进
FEATHERTTS: ROBUST AND EFFICIENT ATTENTION BASED NEURAL TTS
本文章是腾讯继featherwave之后又一篇feather系列文章,featherwave是基于multiband的声码器,而本文章是声学模型,更新与2020.11.02。具体链接https://arxiv.org/pdf/2011.00935.pdf
1 背景
虽然现在的end-to-end的自回归TTS合成音频质量很高,但依然存在诸多问题。比如attention(目前tacotron2使用attention有content-based attention, hybrid location-sensitive attention, GMM ,GMMv2b等等)对齐(音素级对齐帧级)不够,造成合成任务提前终结或者出现漏字拖音的情况。本文提出了基于新的GMM attention的系统FeatherTTS。其主要贡献点 1)介绍具有完全单调性的Gaussion attention使其对齐更好更快。2)删除tacotron2的stop token预测,引入attention stop loss(AVL)。3) 对decoder部分的LSTM使用参数稀疏化,使推理速度更快,实时率更高。
2 详细系统结构
该系统是基于tacotron2架构,详细结构如下图所示,一方面删除了stop token的预测,添加了attention stop loss模块进行合成时常控制。另一方面删除掉原来基于卷积的postnet换成基于LSTM的time delayed,本文章实验的delayed为5帧(这个模块在将来可以尝试使用一下)。其中为了推理加速,该文章对decoder的lstm使用sparse操作,稀疏90%参数,不过对于稀疏化的训练,以前的同事做了好几月,合成效果一般。主要刚开始很难调参数。最后该文章主要对a't'tention部分进行设计。
现在的tacotron2 使用的attention是hybrid attaention ,先计算权重,然后计算context vector
而GMMv2b的attention,采用如下的方式,该attention可以合成较长的语句
本文提到为解决目前GMM的单调性不完全所采用的改进方案,这个看起来很简单。
3 实验结果
文章主要对比了三个方面,MOS 值,错词率WER和实时加速。从Table 1可知,本文提出的方法的合成质量与原来相当,但WER的下降了很多(Table 2),从4%下降到0.9%,另外由于使用稀疏化TeatherTTS比tacotron2快了3.5倍(Table 3)。
4 总结
本文章主要贡献一方面优化GMM attention使其对齐更准确,另外采用sparse进行参数稀疏化进行加速(decoder双层LSTM 1024开销很大)。但从实践来说,sparse同事调了很久,其难度还是很大。